Modelo Flax do Pierre em Português para Reconhecimento de Fala (ASR)

Este repositório é um fork do repositório original criado por Pierre Guillou. Ele contém uma versão convertida do modelo Whisper da OpenAI, fine-tuned no conjunto de dados common_voice_11_0 para o idioma Português.

Resultados

O modelo atinge os seguintes resultados no conjunto de avaliação:

  • Perda (Loss): 0.2628
  • Taxa de Erro de Palavra (Word Error Rate - WER): 6.5987

Para obter mais informações sobre este modelo, consulte este post do autor no blog: Speech-to-Text & IA | Transcreva qualquer áudio para o português com o Whisper (OpenAI)... sem nenhum custo!.

Este modelo, batizado de "Portuguese Medium Whisper", é superior ao modelo original Whisper Medium da OpenAI na transcrição de áudios em português (e inclusive melhor que o modelo Whisper Large, que possui um WER de 7.1).

Treinamento

Training Loss Epoch Step Validation Loss Wer
0.0333 2.07 1500 0.2073 6.9770
0.0061 5.05 3000 0.2628 6.5987
0.0007 8.03 4500 0.2960 6.6979
0.0004 11.0 6000 0.3212 6.6794

Framework versions

  • Transformers 4.26.0.dev0
  • Pytorch 1.13.0+cu117
  • Datasets 2.7.1.dev0
  • Tokenizers 0.13.2
Downloads last month
42
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Dataset used to train RogerioFreitas/whisper-medium-portuguese

Evaluation results