Почему генерация видео из текста сложнее, чем кажется
Генерация видео по текстовому описанию — одна из технически наиболее требовательных задач в генеративном AI. В отличие от изображений, модель должна поддерживать визуальную и семантическую согласованность на протяжении десятков кадров: один и тот же объект не должен менять форму, цвет или пропорции между секундой 1 и секундой 10. Именно здесь большинство моделей проваливаются — персонаж теряет черты лица, камера дёргается без мотивации, а физика объектов нарушается (жидкость течёт вверх, тени не совпадают с источником света).
Второй камень — соответствие промпту на уровне движения, а не только стиля. Фраза «камера медленно отъезжает назад» требует от модели понимания 3D-пространства и управления виртуальным объективом. Дешёвые модели интерпретируют это как случайное масштабирование.
Третий — длина и звук. Большинство моделей генерируют 5-8 секунд без аудио. Для рекламного ролика или соцсетей это критично: смонтировать несколько фрагментов без склеечных артефактов сложно, а добавление отдельного звукового слоя требует дополнительного пайплайна.
Критерии хорошего результата: стабильность объектов между кадрами (temporal consistency), физическая достоверность движений, точное следование описанию камеры, наличие или отсутствие артефактов на границах объектов, плавность без мыльности. Плохой результат легко опознать по «плавающим» объектам и неестественной интерполяции между позами.