metadata
language:
- es
license: apache-2.0
base_model: openai/whisper-medium
tags:
- generated_from_trainer
datasets:
- ivanlmh/NATI_audio
metrics:
- wer
model-index:
- name: Whisper Medium Spanish-NATI - Ivan MH - iidi
results:
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: NATI_audio
type: ivanlmh/NATI_audio
metrics:
- name: Wer
type: wer
value: 66.77115987460816
Whisper Medium Spanish-NATI - Ivan MH
This model is a fine-tuned version of openai/whisper-medium on the NATI_audio dataset. It achieves the following results on the evaluation set:
- Loss: 2.2439
- Wer: 66.7712
This project is for the Instituto Interamericano para Discapacidad y Desarrollo Inclusivo (iiDi).
Model results examples
Transcripción manual (objetivo) | Transcripción obtenida por whisper | Transcripción de whisper adaptado |
---|---|---|
Mi nombre es Natalia, | y no me nada | Mi nombre es Natalia. |
soy de Uruguay del iiDi. | Soy de Uruguay. | Soy de Uruguay, de Lili. |
viene por el lado, de algo que trabajamos durante toda la semana, | por el lado de algo que trabajamos durante todas las semanas. | En el por el lado de algo que trabajamos durante todas las semanas. |
Uno es Danceability | una enganchabilidad | Una en danzability? |
Hola Iván, mirá, vamos en camino. Voy con Eliana también. Llegaremos... Eli, ahora te cuento, es una compañera que me está apoyando. Llegaremos y cuarto, por ahí, perdón la demora. Beso. | Hola, ya miraba más el camino Voy con Eliana también Cerótimo, Eliana de Cuantos es una compañía larga metaforsana, ella misma Cerótimo y Cuantos por ahí, para donde mola el reto | Hola Jan, miraba más el camino, voy con Eliana también. Seguiremos el i ahora te cuento, es una compañera que me está apoyando. Seguiremos i cuarto por ahí, para donde mola verse. |
Intended uses & limitations
The model is fine-tuned for use on target speaker Natalia F.
It is intended for research purposes, neither this model nor the dataset should be used without explicit permission from iiDi or Natalia.
Training and evaluation data
- 10 minutos aprox. de audio transcripto
- A partir de transcripción manual de audios de whatsapp
- 5 minutos aprox.
- A partir de videos subtitulados por el iidi
Training procedure
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 1e-05
- train_batch_size: 2
- eval_batch_size: 2
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 50
- training_steps: 200
Training results
Training Loss | Epoch | Step | Validation Loss | Wer |
---|---|---|---|---|
2.1185 | 1.5385 | 20 | 5.2113 | 70.2194 |
1.101 | 3.0769 | 40 | 3.4953 | 67.3981 |
0.2713 | 4.6154 | 60 | 2.8417 | 64.5768 |
0.0238 | 6.1538 | 80 | 2.0258 | 66.4577 |
0.0189 | 7.6923 | 100 | 2.2078 | 72.4138 |
0.0012 | 9.2308 | 120 | 2.2116 | 67.3981 |
0.0113 | 10.7692 | 140 | 2.2311 | 66.4577 |
0.0004 | 12.3077 | 160 | 2.2437 | 67.7116 |
0.0003 | 13.8462 | 180 | 2.2415 | 66.7712 |
0.0003 | 15.3846 | 200 | 2.2439 | 66.7712 |
Framework versions
- Transformers 4.42.0.dev0
- Pytorch 2.2.1+cu121
- Datasets 2.19.1
- Tokenizers 0.19.1