Audio Course documentation

Практическое занятие

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Практическое занятие

В этом разделе мы рассмотрели аудиозадачу преобразования текста в речь, рассказали о существующих наборах данных, предварительно обученных моделях и нюансах дообучения SpeechT5 для нового языка.

Как вы убедились, дообучение моделей для задач преобразования текста в речь может быть сложной задачей в условиях ограниченных ресурсов. В то же время оценивать модели преобразования текста в речь также нелегко.

По этим причинам данное практическое занятие будет направлено на отработку навыков, а не на достижение определенного значения метрики.

Ваша задача - провести дообучение SpeechT5 на выбранном вами наборе данных. Вы можете выбрать другой язык из того же набора данных voxpopuli, либо выбрать любой другой набор данных, приведенный в этом разделе.

Помните о размере обучающих данных! Для обучения на GPU бесплатного уровня в Google Colab мы рекомендуем ограничить объем обучающих данных примерно до 10-15 часов.

После завершения процесса дообучения поделитесь своей моделью, загрузив ее в Hub. Обязательно пометьте модель как модель text-to-speech либо соответствующими параметрами kwargs, либо через графический интерфейс Hub.

Помните, что основная цель этого упражнения - предоставить вам обширную практику, которая позволит вам отточить свои навыки и получить более глубокое представление об аудиозадачах преобразования текста в речь.

< > Update on GitHub