По словам Варуна Джампани, руководителя отдела 3D-исследований Stability AI, Stable Video 4D найдет применение в кинопроизводстве, игровой индустрии, дополненной и виртуальной реальности, а также в других областях, где необходимо динамически просматривать 3D-объекты под разными углами.
Это не первый шаг Stability AI в мире 3D. В марте компания анонсировала Stable Video 3D, позволяющую создавать короткие 3D-видео из изображений или текстовых запросов. Новая модель, Stable Video 4D, включает в себя ширину (x), высоту (y), глубину (z) и время (t), что позволяет просматривать движущиеся 3D-объекты с различных углов и в разные моменты времени.
Джампани отметил, что ключевыми аспектами разработки Stable Video 4D стало сочетание возможностей моделей Stable Video Diffusion и Stable Video 3D с дополнением специально подобранного набора данных динамических 3D-объектов. В отличие от существующих моделей, использующих отдельные сети для генерации видео и создания новых ракурсов, Stable Video 4D выполняет обе задачи в одной сети.
Также Джампани https://venturebeat.com/ai/stability-ai-steps-into-a-new-gen..., что в новой модели по-другому работают механизмы внимания, что позволяет каждой видеокадру взаимодействовать с соседними кадрами под разными углами обзора или в разные моменты времени. Это обеспечивает лучшую 3D-целостность и временную плавность выходных видео.
Метод работы Stable Video 4D отличается от генеративного дополнения, где сети обычно завершают частично предоставленную информацию. Новая модель полностью синтезирует восемь новых видео с разных ракурсов, используя исходное видео в качестве ориентира, без явной передачи пиксельной информации.
На данный момент Stable Video 4D доступна для исследовательской оценки на платформе https://huggingface.co/stabilityai/sv4d . Компания Stability AI пока не анонсировала коммерческие варианты использования модели, но планирует в будущем расширить её возможности для обработки более длинных и сложных сцен.