Существует целый ряд решений для генерации видео к музыкальным клипам: например, покадровая генерация на основе stable diffusion
https://colab.research.google.com/github/dmarx/video-killed-the-radio-star/blob/main/Video_Killed_The_Radio_Star_Defusion.ipynbОднако приведенный выше пример довольно примитивный и его нужно как минимум дорабатывать и затачивать под конкретную песню: распознавание текста работает коряво, и для смены картинок в нужных местах без появления вокала нужно прописывать строчки в датафрейме вручную. То есть "из коробки" в любом случае не заработает. Ну и черрипикинг.
Однако есть и AI - генерированные видео, которые не сводятся к ряду картинок. Их принцип мне неизвестен.
Есть еще вариант использовать какие-нибудь стоковые видео (подходящие по тематике), а затем преобразовать их с помощью img2img нейросетей
Задача состоит в следующем:
1) изучить сегмент и найти способ генерации, дающий наилучший результат (субъективно). Как было описано выше, есть широкий спектр возможных способов генерации.
2) сгенерировать видео в соответствии с пожеланиями и задумкой автора (подробности в чате)