Как нейросети помогают слушать книги

21.08.2024 17:46

Ferra.ru

Сейчас все больше пользователей выбирают аудиоформат для знакомства с литературой, но создание аудиокниг требует от издательств времени и денег. На помощь тут приходят технологии синтеза речи. Благодаря ним читатель может послушать книги, для которых еще нет готовой аудиоверсии, а издательство — понять, есть ли интерес к тому или иному произведению. Как работает эта технология, рассказывает Владимир Платонов, руководитель службы синтеза речи в Яндексе. Как устроен синтез речи в аудиокнигах Синтез речи, или TTS (text-to-speech) — технология преобразования текста в аудио. Это направление развивается еще с прошлого века, но долгое время качество озвучки оставляло желать лучшего: например, простые компиляционные системы составляли фразы из предварительно записанных фрагментов. Внедрение нейросетей сильно изменило ситуацию. Сейчас синтез речи используется в виртуальных ассистентах, навигационных системах, инструментах для изучения языка, чат-ботах и так далее. И во многих случаях синтезированный голос уже мало отличим от естественного. Автоматическое чтение книг устроено сложнее. Например, Букмейт внедрил такую функцию в июне этого года. Она позволяет прослушивать электронные книги, для которых нет предзаписанных аудиоверсий — звук генерируется непосредственно в процессе слушания и никуда не записывается. Похожие сервисы предлагают и крупные компании: Apple, Google и Amazon, которые развивают свои инструменты для автоматического озвучивания книг. Существуют также универсальные сервисы, которые готовы озвучить любой текст. Например, Speechify использует компьютерный синтез речи для чтения веб-страниц, PDF-файлов и других документов, а еще позволяет пользователю выбрать подходящий голос из нескольких вариантов (в том числе голос знаменитостей). Основное отличие синтеза речи в книгах от, например, виртуальных ассистентов или навигаторов, заключается в больших объемах текста. Если чат-боту достаточно произнести одно-два предложения, то аудиокнига длится несколько часов. К тому же там часто встречаются сложные и длинные предложения — даже опытному диктору потребуется разобраться, как правильно его произнести и где поставить паузы. Есть и сложность с диалогами: читатель должен различать, чьи реплики он слышит. Все это особенности, с которыми сталкиваешься только при работе с книгами. Как это работает В синтезе речи участвует не одна нейросеть, а сразу несколько моделей машинного обучения, каждая из которых выполняет свою специфическую задачу. Процесс начитки книги состоит из нескольких последовательных этапов: Нормализация. Все начинается с подготовки текста: обработки числительных, аббревиатур, синтагм и интонаций. Например, сокращения разворачиваются, а числа и даты преобразуются в текстовый формат. «г. Москва» превращается в «город Москва», а «12.07.2024» — в «двенадцатое июля две тысячи двадцать четвертого года». Фонетическая запись. Здесь модель расставляет ударения, а также выявляет омографы — слова, которые пишутся одинаково, но произносятся по-разному. Например, слово «плачу» может означать как «оплачиваю», так и «плачу (от слез)» — нейросеть вычисляет по окружающему контексту нужное значение и, исходя из этого, ставит ударение. Контекст. На этом этапе текст разбивается на смысловые и интонационные элементы, а исходя из них определяют места для пауз. Модель анализирует предложения, чтобы понять, где сделать логические остановки — это важно, чтобы текст не звучал монотонно и читатель легко его понимал. Акустическая модель. Здесь определяется нужный тон звучания — высота, темп и тип интонации (вопрос, восклицание, сомнение). Также важно правильно расставить смысловые ударения. Например, интонация вопроса требует повышения тона в конце предложения, а восклицание — более выраженной эмоциональной окраски. Вокализация. Только на этом этапе происходит непосредственно «озвучка» — генерируется конечный аудиофайл. Для работы всех этих моделей большое значение имеет обучение. В данном случае нейросеть училась работать с длинными текстами, понимать и воспроизводить сложные языковые структуры. И также важно было, чтобы модель могла говорить голосом конкретного человека. Для этого мы пригласили диктора: специально для нас он записал десятки часов текстов, а нейросеть на их базе училась корректно интонировать. В то же время мы работали с лингвистами, чтобы убедиться, что модель правильно передает смысл текста и его грамматическую структуру. В чём сложности и чего ждать дальше Одна из главных сложностей в разработке — определить объективные критерии качества. Совершенствовать технологию можно долго, но важно понимать, на каком этапе её уже можно предоставлять пользователям. Мы анализируем качество по многим метрикам, но важную роль играют асессоры — люди, которые прослушивают сгенерированные книги и оценивают качества звука и интонации, а также выявляют ошибки в произношении. Асессоры помогают корректировать и улучшать модель, обеспечивая качественное звучание конечного продукта. Текущая технология при озвучке в основном опирается на грамматические правила, синтаксическую структуру предложений, порядок слов и другие языковые аспекты. При этом такого онлайн-рассказчика можно сделать более выразительным. Сейчас модели могут учитывать локальный контекст в книге (то есть определенные эпизоды), чтобы добавлять эмоциональную окраску нужным моментам. Дальше необходима уже работа в рамках глобального контекста, она может влиять на «манеру» повествования — это одно из направлений, в котором могут развиваться технологии синтеза речи. Кроме того, технологию можно применять и в других сервисах. Например, она может улучшить автоматический перевод видео на разные языки, что расширяет аудиторию контента. Также синтез речи может улучшить взаимодействие с виртуальными ассистентами, делая их речь более естественной и человечной.

Новости от наших партнёров в Москве

Ria.city

123ru.net

Ректор Школы-студии МХАТ озвучил аудиогид для Музея Москвы

Крепки иммунитет и острый ум: назван чай, который стоит пить ежедневно

Умер сыгравший Портоса из «Трёх мушкетёров» актёр Владимир Фоменко

"Дональд стесняется": Сигналы о переговорах Путина и Трампа становятся всё более странными. Пинчук иронично ответил "ждунам"

Музыкальные новости

Bigpot.news

В Подмосковье сотрудница Росгвардии рассказала в эфире «Радио 1» о работе с кадетами нового подшефного класса

Хоккейный Кубок «СУЭК-Кузбасс»

В городском округе Домодедово проведена агитационно-разъяснительная работа с населением о сохранности имущества.

Актер Яглыч вернется к роли полицейского в продолжении сериала «Ухожу красиво»

Новости Москвы

29ru.net

Путин: любые переговоры с нелегитимным киевским режимом делают нелегитимными возможные договорённости

Силовики задержали мигрантку, получившую 24 миллиона на жилье в Мытищах

Россия и Мадагаскар договорились о неразмещении первыми оружия в космосе

Вымирающий вид. В России могут отказаться от строительства апартаментов

Экология в Москве

Life24.pro

Главный вывод, который мы понимаем лишь в конце жизни: ответ Игоря Губермана

Мексиканские приключения Александра Петрова и Барбары де Рехиль – состоялась премьера комедии «Василий»

Сургутские врачи удалили пациенту металлическую пластину, которая находилась там 17 лет вместо четырех

«585*ЗОЛОТОЙ» открывает секреты собственного производства в новой рекламной кампании

Спорт в Москве

News.tennis

Джокович снялся с полуфинала Australian Open в Мельбурне

Александр Зверев и Хольгер Руне сыграют на турнире ATP-500 в Рио-де-Жанейро

«Она больше никогда ничего не выиграет». Рыбакину назвали «мошенницей» после вылета с Australian Open

Алькарас: Уезжаю из Австралии с гордо поднятой головой

Москва на Moscow.media

News24.pro

Как нейросети помогают слушать книги

Читайте на 123ru.net

Железнодорожный

Ногинск

Краснознаменск

Шатура

Частные объявления в Москве, в Московской области и в России

Новости от наших партнёров в Москве

Ректор Школы-студии МХАТ озвучил аудиогид для Музея Москвы

Крепки иммунитет и острый ум: назван чай, который стоит пить ежедневно

Умер сыгравший Портоса из «Трёх мушкетёров» актёр Владимир Фоменко

"Дональд стесняется": Сигналы о переговорах Путина и Трампа становятся всё более странными. Пинчук иронично ответил "ждунам"

В Подмосковье сотрудница Росгвардии рассказала в эфире «Радио 1» о работе с кадетами нового подшефного класса

Хоккейный Кубок «СУЭК-Кузбасс»

В городском округе Домодедово проведена агитационно-разъяснительная работа с населением о сохранности имущества.

Актер Яглыч вернется к роли полицейского в продолжении сериала «Ухожу красиво»

Путин: любые переговоры с нелегитимным киевским режимом делают нелегитимными возможные договорённости

Силовики задержали мигрантку, получившую 24 миллиона на жилье в Мытищах

Россия и Мадагаскар договорились о неразмещении первыми оружия в космосе

Вымирающий вид. В России могут отказаться от строительства апартаментов

Главный вывод, который мы понимаем лишь в конце жизни: ответ Игоря Губермана

Мексиканские приключения Александра Петрова и Барбары де Рехиль – состоялась премьера комедии «Василий»

Сургутские врачи удалили пациенту металлическую пластину, которая находилась там 17 лет вместо четырех

«585*ЗОЛОТОЙ» открывает секреты собственного производства в новой рекламной кампании

Джокович снялся с полуфинала Australian Open в Мельбурне

Александр Зверев и Хольгер Руне сыграют на турнире ATP-500 в Рио-де-Жанейро

«Она больше никогда ничего не выиграет». Рыбакину назвали «мошенницей» после вылета с Australian Open

Алькарас: Уезжаю из Австралии с гордо поднятой головой

Райан Гослинг - Восходящая Звезда Галактики "Звездных войн"!

С начала 2024 года Отделение СФР по Москве и Московской области оплатило пособия по временной нетрудоспособности 2,9 млн жителей региона

Спасо-Преображенский собор

Bluetooth-сканер штрих-кодов SAOTRON P04 на базе CMOS-матрицы

Топ новостей на этот час в Москве и Московской области

«Новые люди» внесут в Госдуму РФ законопроект о цифровом ID россиянина

Крепки иммунитет и острый ум: назван чай, который стоит пить ежедневно

Ректор Школы-студии МХАТ озвучил аудиогид для Музея Москвы

«К пользе общего житья»: как создавался Московский университет