Google научил ИИ создавать видео из текста, фото и звука в одном запросе
Компания Google представила модель, которая создаёт и редактирует видео по принципу обычного разговора
Главное отличие от прежних инструментов в том, что Omni работает со смешанным вводом. Модель превращает любую комбинацию текста, изображения, аудио и видео в готовый клип и позволяет дорабатывать результат через редактирование на обычном языке. Иными словами, пользователь может загрузить фотографию, короткий референс для движения или освещения, аудио для настроения и текстовое описание, а система сводит всё это в одно цельное видео. Сама компания формулирует идею так: Omni может создавать что угодно из любого ввода, начиная с видео, опираясь на знания Gemini о реальном мире.
Первая модель в новом семействе называется Gemini Omni Flash. Она уже выкатывается подписчикам Google AI Plus, Pro и Ultra через приложение Gemini и Google Flow, а бесплатный доступ обещают в YouTube Shorts и приложении YouTube Create.
Любопытный момент: Omni не стала просто переименованием прежней видеомодели Veo. Google теперь подаёт Gemini Omni и Veo как две отдельные линейки: Omni относится к семейству Gemini, а Veo остаётся специализированной линейкой видеомоделей. Правда, на странице самого продукта уточняется, что в приложении Gemini Omni придёт на смену Veo.
Доступ к функции пока ограничен. На данный момент она закрыта для пользователей младше 18 лет и требует платного плана Google AI. Среди заявленных возможностей — редактирование видео, многошаговая правка в рамках одного диалога и выбор соотношения сторон ещё до генерации.