Добавить новость

Турнир по спортивным бальным танцам прошел в Лобне

Реплика Константина Калиниченко: Губернаторопад-2024

Выяснилось, кто может возглавить Коми после ухода Уйбы

Вирус Коксаки: что за инфекцию считают "угрожающей детям", симптомы



Новости сегодня

Новости от TheMoneytizer

И птичку, и хрипы. Алтайские программисты выиграли миллион на создание новейшей программы по обработке аудио

Студент АлтГУ Валентин Карев со своей командой выиграл миллион рублей от конкурса студенческих стартапов. Его проект направлен на создание онлайн-сервиса для нейросетевой обработки аудиозаписей, с помощью которого, например, можно будет убрать лишнее шипение на записи голоса. Чем этот проект будет отличаться от других подобных сайтов и на что там нужен миллион рублей — в материале altapress.ru.

Культпоход знает, куда сходить на Алтае.

Музыка. Фото: ru.freepik.com, автор master1305.

«Студенческий стартап»— это программа, реализуемая Фондом содействия инновациям в рамках федерального проекта «Платформа университетского технологического предпринимательства». Ее цель — грантовая поддержка стартап-проектов обучающихся российских вузов.

Как это работает

Пользователи будущего сайта смогут использовать различные варианты рабочих моделей, которые позволяют работать с речью, вокалом и музыкой, такие как шумоочисткаи разделение аудио на несколько дорожек.

Микрофон. Запись
СС0

Функция шумоочистки, например, позволит обработать аудиозапись так, чтобы удалить лишние шумы — шум ветра, ненужные шорохи и др. — и тем самым улучшить ее качество.

Эта программа облегчит жизнь звукорежиссерам, монтажерам и другим техническим специалистам, занимающимся видеопроизводством.

«Говоря о функции шумоочистки, она может быть реализована по-разному. Наш принцип работы такой: человек загружает звукозапись на сайт, затем программа с этой записи читает спектрограмму и подает ее на нейросеть, которая определяет места, где, скорее всего, находятся шумы и выдает очищенный звук», — рассказал Валентин Карев.

Виталий Карев. Победитель конкурса студенческих стартапов 2024.
vk.com/ictef74

На данный момент в команде проекта четыре человека. Есть те, кто занимается непосредственно программированием, есть отдельный человек для продвижения, а также свой дизайнер сайта.

«Чем нейросетевая обработка лучше классических методов, которыми пользуются многие в качестве плагина? Тем, что классические методы основываются на статистических данных, — объясняет собеседник. — И, например, с пением птички, которое отличается резким и быстрым всплеском в высокочастотной области, такие алгоритмы не смогут справится, а нейросетевые модели — могут».

Что не так с тем, что есть

Данным вопросом команда занимается уже довольно давно. За все то время, что молодые профессионалы находятся в сфере, они успели выявить несколько недостатков существующих подобных сервисов.

Музыка.
Фото: ru.freepik.com, автор freepik.

«Основной проблемой тех сервисов, которые есть сейчас, является скорость работы, — отметил собеседник. — Мы хотим сделать так, чтобы наш функционировал в режиме реального времени. И, возможно, даже выпустить его как плагин. Так программу можно будет встраивать в прямые трансляции».

Еще одна проблема существующих программ — не хватает русской локализации. Так, собеседник приводит в пример известный сервис AdobePodcast — если русскоязычная речь будет тихой или трудноразличимой, он может на выходе заменить некоторые слова или звуки на похожие по звучанию английские. Цель проекта алтайской команды — углубить знания программы для русскоязычной аудитории.

Проект создавался не с нуля. На данный момент уже готовы модели нейросети для программы очистки от шумов. Конечно, специалисты постоянно следят за мировыми трендами и улучшают свои разработки.

Девушка слушает музыку со смартфона.
Фото: freepik, автор kroshka__nastya.

Начался этот проект еще в то время, когда Виталий Карев, сейчас магистрант, учился на бакалавриате. Темой исследования в одной из его курсовых работ была верификация дикторов по тембру — то есть определение того, кто говорит. Это похоже на определение по лицу, только анализирует программа речь.

«В отличие от лица, речь довольно легко подделать, — рассказывает руководитель проекта. — К тому же, влияют на качество верификации как раз-таки внешние шумы. Поэтому, когда человек хочет войти в телефон или приложение с помощью этого метода, могут возникнуть трудности, если при этом он находится в шумном месте. Так что мы решили выбрать первым основным направлением именно шумоочистку».

Есть куда развиваться

Проблема качества шумоочистки зависит, объясняет Виталий Карев, еще и от того, как это качество вообще оценивать. Например, в той же верификации говорящего оценка очевидна — правильно определила программа человека или нет. Шумоочистка же и качество речи на выходе — вещи субъективные, зависят от слушающего, и при очистке от шумов используют разные методики.

Музыка — это универсальный язык, способный объединять людей.
Фото: ru.freepik.com, автор freepik.

Например, рассказывает собеседник, существуют международные исследования подобных программ, в которых люди оценивали полученную аудиозапись по трем критериям: насколько разборчива речь, насколько мало в ней лишних призвуков и общее качество. Такой аналитикой занимаются большие компании, такие как Amazon,Microsoft, или Сбербанк.

«На основе такого же сбора данных мы можем попробовать научить алгоритм предсказывать, что скажет человек, и уже на этой основе учить нашу нейросеть, — поделился Виталий Карев. — Может быть, шумов и не будет, но это не гарантирует качество самой речи. Как я уже упоминал, могут появиться английские призвуки в словах. Поэтому направлению еще есть куда развиваться».

Записи голоса для обучения нейросети будут использовать как открытые, так и собственные — будучи режиссером звукозаписи в АлтГУ, Виталий Карев уже собрал некоторую базу голосов студентов и коллег. В перспективе команда планирует нанимать профессиональных дикторов.

Микрофон.
unsplash.com

Чтобы диапазон работы программы был шире, нужно собирать не только обычную речь, но и вокал — для компьютерного алгоритма это разные вещи. На первом этапе проекта разработчики сконцентрировались на обработке речевых записей. Но впоследствии будут расширяться на вокал и музыку.

Сколько

Некоторые сервисы обработки аудио имеют ограничения по объему. Валентин Карев говорит, что пока точно неизвестно, придется ли вводить их на будущем сайте, — это будет зависеть от загруженности сервера.

Тут для разработчиков два выхода: вкладываться в оборудование или уменьшать объем принимаемых файлов. В основном все ищут золотую середину, чтобы и снизить затраты (оборудование может стоит как сотни тысяч, так и сотни миллионов), и не заставлять пользователей долго ждать в очереди.

Компьютер.
unsplash.com

Вопрос о цене для пользователей разработчики решили демократично:

«По условиям гранта ресурс должен быть платным. Однако мы сделаем так, чтобы было некоторое число бесплатных обработок в сутки. Если пользователь захочет отредактировать больше записей, нужно будет приобрести подписку», — рассказал Виталий Карев.

Куда пойдет миллион

Первым делом команде выдали только часть средств. Когда победители зарегистрируют юридическое лицо, они получат полную сумму на реализацию оставшейся части проекта. До этого момента ведут запись голосов для обучения нейросети и готовят дизайн сайта.

Графический дизайнер.
Источник: ru.freepik.com/автор/freepik

Следующим шагом станет закупка оборудования — в первую очередь, производительного компьютера. На это пойдет основная часть средств. Оставшиеся деньги направят на подготовку технической части — написание кода.

Самые важные новости в Телеграм и ВКонтакте. Подпишитесь!

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Выяснилось, кто может возглавить Коми после ухода Уйбы

Турнир по спортивным бальным танцам прошел в Лобне

В Москве выпустили карты «Тройка» с изображением фиксиков

Вирус Коксаки: что за инфекцию считают "угрожающей детям", симптомы

Музыкальные новости

Уральская ТПП реализует важные межнациональные проекты и укрепляет народное единство

Вылетевший из Санкт-Петербурга в Уфу самолёт экстренно сел в Пулково

"Торпедо" - "Динамо Москва" 4 ноября: где смотреть трансляцию матча

Майя Санду второй раз подряд стала президентом Молдавии. Будут ли протесты?

Новости России

Сотрудники Горьковской железной дороги приняли участие в 338 волонтерских мероприятиях с начала года

Спасение и возвращение к жизни: запас донорской крови в России вырос вдвое

Арина Шарапова попалась на мошенников, которые обещали ей избавление от всех морщин

Выяснилось, кто может возглавить Коми после ухода Уйбы

Экология в России и мире

Подписывайтесь на наши Telegram каналы!

Мировая премьера концерта – симфонии «Русскому Донбассу» состоялась в Чите

Уральская ТПП реализует важные межнациональные проекты и укрепляет народное единство

Отель Yalta Intourist встретит участников Всероссийского туристического слёта

Спорт в России и мире

Медведев обошел Джоковича в рейтинге АТР

Российская теннисистка Шнайдер вышла в финал турнира WTA-250 в Гонконге

Российская теннисистка Шнайдер вышла в полуфинал турнира WTA в Гонконге

Прямая трансляция первого матча Елены Рыбакиной на Итоговом турнире WTA

Moscow.media

Заместитель управляющего Отделением Фонда пенсионного и социального страхования Российской Федерации по г. Москве и Московской области Алексей Путин: «Клиентоцентричность - наш приоритет»

Портативный ТСД корпоративного класса Saotron RT-T70

Всемирный день городов: «Грузовичкоф» расширяет горизонты

Сколько сейчас стоит новая Шкода Октавия? Реальные цены в ноябре 2024 года











Топ новостей на этот час

Rss.plus






Путин: на линии боевого соприкосновения идёт борьба за сохранение русского языка

Спасение и возвращение к жизни: запас донорской крови в России вырос вдвое

Реплика Константина Калиниченко: Губернаторопад-2024

Сотрудники Горьковской железной дороги приняли участие в 338 волонтерских мероприятиях с начала года