Студент АлтГУ Валентин Карев со своей командой выиграл миллион рублей от конкурса студенческих стартапов. Его проект направлен на создание онлайн-сервиса для нейросетевой обработки аудиозаписей, с помощью которого, например, можно будет убрать лишнее шипение на записи голоса. Чем этот проект будет отличаться от других подобных сайтов и на что там нужен миллион рублей — в материале altapress.ru.
«Студенческий стартап»— это программа, реализуемая Фондом содействия инновациям в рамках федерального проекта «Платформа университетского технологического предпринимательства». Ее цель — грантовая поддержка стартап-проектов обучающихся российских вузов.
Пользователи будущего сайта смогут использовать различные варианты рабочих моделей, которые позволяют работать с речью, вокалом и музыкой, такие как шумоочисткаи разделение аудио на несколько дорожек.
Функция шумоочистки, например, позволит обработать аудиозапись так, чтобы удалить лишние шумы — шум ветра, ненужные шорохи и др. — и тем самым улучшить ее качество.
Эта программа облегчит жизнь звукорежиссерам, монтажерам и другим техническим специалистам, занимающимся видеопроизводством.
«Говоря о функции шумоочистки, она может быть реализована по-разному. Наш принцип работы такой: человек загружает звукозапись на сайт, затем программа с этой записи читает спектрограмму и подает ее на нейросеть, которая определяет места, где, скорее всего, находятся шумы и выдает очищенный звук», — рассказал Валентин Карев.
На данный момент в команде проекта четыре человека. Есть те, кто занимается непосредственно программированием, есть отдельный человек для продвижения, а также свой дизайнер сайта.
«Чем нейросетевая обработка лучше классических методов, которыми пользуются многие в качестве плагина? Тем, что классические методы основываются на статистических данных, — объясняет собеседник. — И, например, с пением птички, которое отличается резким и быстрым всплеском в высокочастотной области, такие алгоритмы не смогут справится, а нейросетевые модели — могут».
Данным вопросом команда занимается уже довольно давно. За все то время, что молодые профессионалы находятся в сфере, они успели выявить несколько недостатков существующих подобных сервисов.
«Основной проблемой тех сервисов, которые есть сейчас, является скорость работы, — отметил собеседник. — Мы хотим сделать так, чтобы наш функционировал в режиме реального времени. И, возможно, даже выпустить его как плагин. Так программу можно будет встраивать в прямые трансляции».
Еще одна проблема существующих программ — не хватает русской локализации. Так, собеседник приводит в пример известный сервис AdobePodcast — если русскоязычная речь будет тихой или трудноразличимой, он может на выходе заменить некоторые слова или звуки на похожие по звучанию английские. Цель проекта алтайской команды — углубить знания программы для русскоязычной аудитории.
Проект создавался не с нуля. На данный момент уже готовы модели нейросети для программы очистки от шумов. Конечно, специалисты постоянно следят за мировыми трендами и улучшают свои разработки.
Начался этот проект еще в то время, когда Виталий Карев, сейчас магистрант, учился на бакалавриате. Темой исследования в одной из его курсовых работ была верификация дикторов по тембру — то есть определение того, кто говорит. Это похоже на определение по лицу, только анализирует программа речь.
«В отличие от лица, речь довольно легко подделать, — рассказывает руководитель проекта. — К тому же, влияют на качество верификации как раз-таки внешние шумы. Поэтому, когда человек хочет войти в телефон или приложение с помощью этого метода, могут возникнуть трудности, если при этом он находится в шумном месте. Так что мы решили выбрать первым основным направлением именно шумоочистку».
Проблема качества шумоочистки зависит, объясняет Виталий Карев, еще и от того, как это качество вообще оценивать. Например, в той же верификации говорящего оценка очевидна — правильно определила программа человека или нет. Шумоочистка же и качество речи на выходе — вещи субъективные, зависят от слушающего, и при очистке от шумов используют разные методики.
Например, рассказывает собеседник, существуют международные исследования подобных программ, в которых люди оценивали полученную аудиозапись по трем критериям: насколько разборчива речь, насколько мало в ней лишних призвуков и общее качество. Такой аналитикой занимаются большие компании, такие как Amazon,Microsoft, или Сбербанк.
«На основе такого же сбора данных мы можем попробовать научить алгоритм предсказывать, что скажет человек, и уже на этой основе учить нашу нейросеть, — поделился Виталий Карев. — Может быть, шумов и не будет, но это не гарантирует качество самой речи. Как я уже упоминал, могут появиться английские призвуки в словах. Поэтому направлению еще есть куда развиваться».
Записи голоса для обучения нейросети будут использовать как открытые, так и собственные — будучи режиссером звукозаписи в АлтГУ, Виталий Карев уже собрал некоторую базу голосов студентов и коллег. В перспективе команда планирует нанимать профессиональных дикторов.
Чтобы диапазон работы программы был шире, нужно собирать не только обычную речь, но и вокал — для компьютерного алгоритма это разные вещи. На первом этапе проекта разработчики сконцентрировались на обработке речевых записей. Но впоследствии будут расширяться на вокал и музыку.
Некоторые сервисы обработки аудио имеют ограничения по объему. Валентин Карев говорит, что пока точно неизвестно, придется ли вводить их на будущем сайте, — это будет зависеть от загруженности сервера.
Тут для разработчиков два выхода: вкладываться в оборудование или уменьшать объем принимаемых файлов. В основном все ищут золотую середину, чтобы и снизить затраты (оборудование может стоит как сотни тысяч, так и сотни миллионов), и не заставлять пользователей долго ждать в очереди.
Вопрос о цене для пользователей разработчики решили демократично:
«По условиям гранта ресурс должен быть платным. Однако мы сделаем так, чтобы было некоторое число бесплатных обработок в сутки. Если пользователь захочет отредактировать больше записей, нужно будет приобрести подписку», — рассказал Виталий Карев.
Первым делом команде выдали только часть средств. Когда победители зарегистрируют юридическое лицо, они получат полную сумму на реализацию оставшейся части проекта. До этого момента ведут запись голосов для обучения нейросети и готовят дизайн сайта.
Следующим шагом станет закупка оборудования — в первую очередь, производительного компьютера. На это пойдет основная часть средств. Оставшиеся деньги направят на подготовку технической части — написание кода.