Почему Sora и Veo устроены по-разному
Sora 2 от OpenAI строится на диффузионном трансформере (DiT), который обрабатывает видео как пространственно-временные патчи. Модель обучена воспринимать мир как симуляцию с физическими законами — объекты сохраняют форму при движении камеры, жидкости ведут себя предсказуемо, тени падают корректно. OpenAI намеренно вложила в обучение данные с пометками о физических взаимодействиях, что даёт Sora преимущество в реалистичности движений. Архитектура также позволяет принимать существующие видеофрагменты как «каркас» и достраивать сцену вокруг них.
Veo 3.1 от Google опирается на собственную латентно-диффузионную архитектуру, разработанную в Google DeepMind, с глубокой интеграцией видеопонимания из Gemini. Ключевое отличие — Veo обучалась на закрытом корпусе лицензированного видеоконтента совместно с YouTube, что обеспечивает исключительно высокое визуальное качество кадра: детализацию текстур, точную цветопередачу и кинематографичность. Veo 3.1 также нативно поддерживает генерацию синхронного звука прямо в пайплайне, тогда как в Sora звук добавляется как отдельный компонент. Принципиальная разница: Sora оптимизирует физическую правдоподобность сцены, Veo — эстетическое и кинематографическое качество изображения.