Fugatto создает музыкальные композиции на основе необычных запросов. Так, можно попросить систему сгенерировать звучание саксофона, имитирующего лай собаки, а затем плавно переходящего в электронную музыку. Также система способна генерировать совершенно новые звуки, основанные на подробных описаниях, например, «глубокий гул баса, чередующийся с высокими цифровыми писками, напоминающими звуки пробуждающейся машины». Инструмент трансформирует звучание человеческого голоса, изменяя акцент или придавая ему различные эмоциональные оттенки, например, гнев или спокойствие. Кроме того, Fugatto позволяет редактировать музыкальные композиции: выделять вокальные партии, добавлять новые инструменты и даже изменять мелодию, заменив, например, фортепиано на оперное соло.
Это стало возможным благодаря особому подходу к обучению модели. Исследователи Nvidia отметили, что создать набор данных для тренировки нейросети, которая могла бы связывать между собой звуки и слова, сложно. Обычно нейросети сами учатся понимать текстовые инструкции, но когда речь идет о звуках, им нужна более точная подсказка. Чтобы решить эту проблему, ученые использовали специальную программу (скрипт на языке Python), которая генерировала большое количество инструкций для создания разных звуковых образов. Эти описания, включающие как абсолютные характеристики («синтезировать грустный голос»), так и относительные («увеличить грусть в голосе»), использовались для составления набора данных.
Большинство общедоступных аудиозаписей, которые использовались для обучения Fugatto, не содержат подробной информации о том, какие эмоции в них заложены или как звучит голос. Поэтому ученые разработали способ автоматически описывать звуки словами.
Например, они могли охарактеризовать звук как «веселый», «грустный» или «громкий». Кроме того, использовались специальные инструменты, чтобы извлечь из аудио числовые характеристики, которые помогают понять, как оно устроено.
После обработки обширной коллекции открытых аудиоданных исследователи сформировали детально аннотированный набор данных, включающий 20 млн отдельных аудиообразцов общей продолжительностью более 50 000 часов. На основе этого набора с использованием 32 тензорных ядер Nvidia была обучена модель с 2,5 млрд параметров. ИИ продемонстрировал высокую точность в тестах качества звука.
В Fugatto также интегрирована система ComposableART. Она позволяет, получив текстовое или аудио описание, создавать новые звуки путем комбинирования различных характеристик, извлеченных из обучающих данных.
По сути, ComposableART генерирует звуки, не встречавшиеся в обучающей выборке, поскольку сочетает несочетаемое. К примеру, звучание скрипки смешивается со смехом ребенка, а шум дождя — с банджо.
Модель рассматривает каждую отдельную аудиохарактеристику как непрерывный спектр, а не как дискретное значение. Так, при создании звукового образа, совмещающего звучание акустической гитары и журчащей воды, конечный результат будет зависеть от того, какая из этих характеристик будет преобладать в «смеси», создаваемой Fugatto.
Nvidia считает, что инструмент пригодится в разных сферах — от создания музыки до разработки новых звуковых эффектов для игр. Разработчики подчеркивают, что модель рассматривается не как замена музыкантов, а как новый инструмент для аудиохудожников. Правда, пока Fugatto не доступна для публичного тестирования.