Практическое занятие
В этом разделе мы рассмотрели аудиозадачу преобразования текста в речь, рассказали о существующих наборах данных, предварительно обученных моделях и нюансах дообучения SpeechT5 для нового языка.
Как вы убедились, дообучение моделей для задач преобразования текста в речь может быть сложной задачей в условиях ограниченных ресурсов. В то же время оценивать модели преобразования текста в речь также нелегко.
По этим причинам данное практическое занятие будет направлено на отработку навыков, а не на достижение определенного значения метрики.
Ваша задача - провести дообучение SpeechT5 на выбранном вами наборе данных. Вы можете выбрать
другой язык из того же набора данных voxpopuli
, либо выбрать любой другой набор данных, приведенный в этом разделе.
Помните о размере обучающих данных! Для обучения на GPU бесплатного уровня в Google Colab мы рекомендуем ограничить объем обучающих данных примерно до 10-15 часов.
После завершения процесса дообучения поделитесь своей моделью, загрузив ее в Hub. Обязательно пометьте модель
как модель text-to-speech
либо соответствующими параметрами kwargs, либо через графический интерфейс Hub.
Помните, что основная цель этого упражнения - предоставить вам обширную практику, которая позволит вам отточить свои навыки и получить более глубокое представление об аудиозадачах преобразования текста в речь.
< > Update on GitHub