ivanlmh's picture
Update README.md
de3a78d verified
metadata
language:
  - es
license: apache-2.0
base_model: openai/whisper-medium
tags:
  - generated_from_trainer
datasets:
  - ivanlmh/NATI_audio
metrics:
  - wer
model-index:
  - name: Whisper Medium Spanish-NATI - Ivan MH - iidi
    results:
      - task:
          name: Automatic Speech Recognition
          type: automatic-speech-recognition
        dataset:
          name: NATI_audio
          type: ivanlmh/NATI_audio
        metrics:
          - name: Wer
            type: wer
            value: 66.77115987460816

Whisper Medium Spanish-NATI - Ivan MH

This model is a fine-tuned version of openai/whisper-medium on the NATI_audio dataset. It achieves the following results on the evaluation set:

  • Loss: 2.2439
  • Wer: 66.7712

This project is for the Instituto Interamericano para Discapacidad y Desarrollo Inclusivo (iiDi).

Model results examples

Transcripción manual (objetivo) Transcripción obtenida por whisper Transcripción de whisper adaptado
Mi nombre es Natalia, y no me nada Mi nombre es Natalia.
soy de Uruguay del iiDi. Soy de Uruguay. Soy de Uruguay, de Lili.
viene por el lado, de algo que trabajamos durante toda la semana, por el lado de algo que trabajamos durante todas las semanas. En el por el lado de algo que trabajamos durante todas las semanas.
Uno es Danceability una enganchabilidad Una en danzability?
Hola Iván, mirá, vamos en camino. Voy con Eliana también. Llegaremos... Eli, ahora te cuento, es una compañera que me está apoyando. Llegaremos y cuarto, por ahí, perdón la demora. Beso. Hola, ya miraba más el camino Voy con Eliana también Cerótimo, Eliana de Cuantos es una compañía larga metaforsana, ella misma Cerótimo y Cuantos por ahí, para donde mola el reto Hola Jan, miraba más el camino, voy con Eliana también. Seguiremos el i ahora te cuento, es una compañera que me está apoyando. Seguiremos i cuarto por ahí, para donde mola verse.

Intended uses & limitations

The model is fine-tuned for use on target speaker Natalia F.

It is intended for research purposes, neither this model nor the dataset should be used without explicit permission from iiDi or Natalia.

Training and evaluation data

  • 10 minutos aprox. de audio transcripto
    • A partir de transcripción manual de audios de whatsapp
  • 5 minutos aprox.
    • A partir de videos subtitulados por el iidi

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 1e-05
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 42
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 50
  • training_steps: 200

Training results

Training Loss Epoch Step Validation Loss Wer
2.1185 1.5385 20 5.2113 70.2194
1.101 3.0769 40 3.4953 67.3981
0.2713 4.6154 60 2.8417 64.5768
0.0238 6.1538 80 2.0258 66.4577
0.0189 7.6923 100 2.2078 72.4138
0.0012 9.2308 120 2.2116 67.3981
0.0113 10.7692 140 2.2311 66.4577
0.0004 12.3077 160 2.2437 67.7116
0.0003 13.8462 180 2.2415 66.7712
0.0003 15.3846 200 2.2439 66.7712

Framework versions

  • Transformers 4.42.0.dev0
  • Pytorch 2.2.1+cu121
  • Datasets 2.19.1
  • Tokenizers 0.19.1