В мае текущего года компания Google официально представила миру свою генеративную нейросеть Veo, которая предоставила пользователям возможность создавать видеоролики по текстовому описанию с достаточно высокой точностью и детализацией. С тех пор поисковой гигант заметно прокачал свои большие языковые модели, представив сегодня, 17 декабря, новую видеомодель под названием Veo 2. По словам специалистов из Google, эта нейросеть предлагает более глубокое понимание реальной физики, а также нюансов движений и выражений лица человека. В результате детализация и реализм конечного контента сильно вырос.
Кроме того, главное преимущество Veo 2 в том, что данная видеомодель может генерировать видео в разрешении вплоть до 4К продолжительностью в несколько минут. На данный момент на рынке нет нейросети, которая могла бы похвастаться чем-то подобным, плюс пользователь в процессе взаимодействия с ИИ может давать системе весьма обширные подсказки. Например, можно выбрать подходящий угол съёмки, определить тип объектива, на который снимается сцена, выбрать глубину резкости или дать команду «снять» лицо человека крупным планом. В результате конечное видео выглядит действительно очень реалистично — догадаться, что это генерация от ИИ, почти невозможно.
Также в Google говорят, что их модель Veo 2 реже галлюцинирует, добавляя в кадр лишние детали, которые там быть не должны (например, чаще всего возникают проблемы с пальцами людей). И, естественно, все ролики, созданные через Veo 2, будут отмечены невидимым водяным знаком SynthID, который позволяет идентифицировать сгенерированные искусственным интеллектом ролики. Это очень важный момент, потому что такого рода инструменты могут использоваться злоумышленниками для дезинформации и прочих нежелательных активностей в сети.