Разработать систему цифровой обработки сигналов, которая позволит очищать исходную
аудиорожку от шумов, выполнять
эквалайзинг (корректировку уровня громкости на различных частотах для улучшения баланса звука).
Для реализации данной системы необходимо использовать специализированные библиотеки Python, такие как NumPy,
Librosa, TensorFlow,
Pytorch, Keras,
Scikit-learn, Concurrent.futures (для параллельного преобразования аудио в спектрограммы), Matplotlib (для визуализации спектрограммы до и после) и Tkinter (для самого приложения).
Использовать
сверточные нейронные сети, т.к. Спектрограммы представляют собой двумерные изображения
CNN отлично подходят для обработки изображений.
Датасет требуется взять с
AudioSet от Google Research. Исходные видеоролики находятся на YouTube, а аннотации всех звуковых фрагментов хранятся в виде таблицы CSV. С помощью утилиты yt-dlp извлечь аудиозаписи в формат WAV. Уже написан скрипт, который переводит аудиозаписи из WAV в формат
npy.
Модель должна обучаться в несколько эпох. В каждой эпохе модель корректирует свои параметры на основе функции потерь, минимизируя ошибку. Данные разделить на обучающую и
валидационную выборки.
Возможны корректировки в ТЗ, если что-то иное предложите. Просьба откликаться только знающим материал. Время на выполнение есть, главное чтобы исполнитель был ответственным. Данная работа не коммерческая, а учебная. Оплату хотел бы производить по частям, после каждого выполненного этапа.