Компания DeepL обрела популярность за сервис онлайн-перевода текстов, который, как она утверждает, более тонкий и точный, чем у Google. Теперь, когда все вокруг начали использовать искусственный интеллект, DeepL также не осталась в стороне. Компания внедрила функцию голосового перевода — DeepL Voice, которая позволяет автоматически переводить речь. Причём работает это в режиме реального времени.
DeepL Voice поддерживает английский, немецкий, японский, корейский, шведский, голландский, французский, турецкий, польский, португальский, русский, испанский и итальянский языки. Титры с переводом доступны для всех 33 языков, поддерживаемых сервисом. В перспективе у разработчиков — живая речь, а также голосовой перевод во время видеоконференций. В первом случае это так называемый зеркальный перевод. Идея заключается в том, что смартфон кладётся между собеседниками таким образом, чтобы все видели переведённые слова. Во время видеоконференций переводы отображаются в виде субтитров. Единственным на текущий момент сервисом видеоконференций, поддерживающим субтитры DeepL, является Teams. Что касается Zoom или Google Meet, то сроки появления в этих программах функции DeepL Voice не называются, хотя это самый популярный запрос среди пользователей сервиса.
В отличие от многих других ИИ-приложений, которые опираются на большие языковые модели (LLM) других компаний, DeepL стремится создать свой сервис с нуля. В июле компания выпустила новую языковую модель, оптимизированную для переводов, которая, по её словам, превосходит GPT-4, а также модели от Google и Microsoft. Кроме того, одним из уникальных преимуществ DeepL Voice является работа в режиме реального времени, что очень важно, поскольку многие существующие сервисы ИИ-перевода работают с задержкой. Вот почему компания сосредоточилась на выводе текстовых переводов, так как нейросети ещё не могут так же быстро создавать аудио и видео с переводом.
Видеоконференции и совещания — самые вероятные сферы применения DeepL Voice, однако руководство компании видит сферу обслуживания ещё одним важным направлением. К примеру, официанты или продавцы могли бы использовать сервис для более удобного общения с клиентами. Компания не скрывает, что голосовые записи отправляются на сервер, где происходит обработка и перевод, но в системе ничего не сохраняется и не используется для обучения LLM.