File size: 6,620 Bytes
7c2d933 5c0c3d3 7c2d933 5c0c3d3 7c2d933 5c0c3d3 7c2d933 5c0c3d3 7c2d933 5c0c3d3 7c2d933 de3a78d 7c2d933 5c0c3d3 7c2d933 5c0c3d3 7c2d933 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |
---
language:
- es
license: apache-2.0
base_model: openai/whisper-medium
tags:
- generated_from_trainer
datasets:
- ivanlmh/NATI_audio
metrics:
- wer
model-index:
- name: Whisper Medium Spanish-NATI - Ivan MH - iidi
results:
- task:
name: Automatic Speech Recognition
type: automatic-speech-recognition
dataset:
name: NATI_audio
type: ivanlmh/NATI_audio
metrics:
- name: Wer
type: wer
value: 66.77115987460816
---
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->
# Whisper Medium Spanish-NATI - Ivan MH
This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the NATI_audio dataset.
It achieves the following results on the evaluation set:
- Loss: 2.2439
- Wer: 66.7712
**This project is for the Instituto Interamericano para Discapacidad y Desarrollo Inclusivo (iiDi).**
## Model results examples
| Transcripción manual (objetivo) | Transcripción obtenida por whisper | Transcripción de whisper adaptado |
|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Mi nombre es Natalia, | y no me nada | Mi nombre es Natalia. |
| soy de Uruguay del iiDi. | Soy de Uruguay. | Soy de Uruguay, de Lili. |
| viene por el lado, de algo que trabajamos durante toda la semana, | por el lado de algo que trabajamos durante todas las semanas. | En el por el lado de algo que trabajamos durante todas las semanas. |
| Uno es Danceability | una enganchabilidad | Una en danzability? |
| Hola Iván, mirá, vamos en camino. Voy con Eliana también. Llegaremos... Eli, ahora te cuento, es una compañera que me está apoyando. Llegaremos y cuarto, por ahí, perdón la demora. Beso. | Hola, ya miraba más el camino Voy con Eliana también Cerótimo, Eliana de Cuantos es una compañía larga metaforsana, ella misma Cerótimo y Cuantos por ahí, para donde mola el reto | Hola Jan, miraba más el camino, voy con Eliana también. Seguiremos el i ahora te cuento, es una compañera que me está apoyando. Seguiremos i cuarto por ahí, para donde mola verse. |
## Intended uses & limitations
The model is fine-tuned for use on target speaker Natalia F.
It is intended for research purposes, neither this model nor the dataset should be used without explicit permission from iiDi or Natalia.
## Training and evaluation data
- 10 minutos aprox. de audio transcripto
- A partir de transcripción manual de audios de whatsapp
- 5 minutos aprox.
- A partir de videos subtitulados por el iidi
## Training procedure
### Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 1e-05
- train_batch_size: 2
- eval_batch_size: 2
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 50
- training_steps: 200
### Training results
| Training Loss | Epoch | Step | Validation Loss | Wer |
|:-------------:|:-------:|:----:|:---------------:|:-------:|
| 2.1185 | 1.5385 | 20 | 5.2113 | 70.2194 |
| 1.101 | 3.0769 | 40 | 3.4953 | 67.3981 |
| 0.2713 | 4.6154 | 60 | 2.8417 | 64.5768 |
| 0.0238 | 6.1538 | 80 | 2.0258 | 66.4577 |
| 0.0189 | 7.6923 | 100 | 2.2078 | 72.4138 |
| 0.0012 | 9.2308 | 120 | 2.2116 | 67.3981 |
| 0.0113 | 10.7692 | 140 | 2.2311 | 66.4577 |
| 0.0004 | 12.3077 | 160 | 2.2437 | 67.7116 |
| 0.0003 | 13.8462 | 180 | 2.2415 | 66.7712 |
| 0.0003 | 15.3846 | 200 | 2.2439 | 66.7712 |
### Framework versions
- Transformers 4.42.0.dev0
- Pytorch 2.2.1+cu121
- Datasets 2.19.1
- Tokenizers 0.19.1
|