Необходимо:
- обучение исходной модели на русский язык -
https://github.com/neonbjb/tortoise-ttsВ топике на GH автор выложил краткий пайнплайн:
"вот что вам нужно для обучения этому:
wav2vec или аналогичная модель asr для вашего языка
по крайней мере, 10 000 часов разговорного языка, без шумов окружающей среды, музыки и т. Д. Это не нужно расшифровывать. Я использовал аудиокниги и подкасты для английского языка.
в общей сложности около 16 месяцев до версии 100
Я не думаю, что в aishell достаточно данных для обучения этому"