Life&Arts

Google научил ИИ создавать видео из текста, фото и звука в одном запросе

Компания Google представила модель, которая создаёт и редактирует видео по принципу обычного разговора

девушка держит в руках планшет, на котором открыт браузер Google — Фото: pixabay.com

Фото: pixabay.com

23 мая 2026, 12:00

Главное отличие от прежних инструментов в том, что Omni работает со смешанным вводом. Модель превращает любую комбинацию текста, изображения, аудио и видео в готовый клип и позволяет дорабатывать результат через редактирование на обычном языке. Иными словами, пользователь может загрузить фотографию, короткий референс для движения или освещения, аудио для настроения и текстовое описание, а система сводит всё это в одно цельное видео. Сама компания формулирует идею так: Omni может создавать что угодно из любого ввода, начиная с видео, опираясь на знания Gemini о реальном мире.

Первая модель в новом семействе называется Gemini Omni Flash. Она уже выкатывается подписчикам Google AI Plus, Pro и Ultra через приложение Gemini и Google Flow, а бесплатный доступ обещают в YouTube Shorts и приложении YouTube Create.

Любопытный момент: Omni не стала просто переименованием прежней видеомодели Veo. Google теперь подаёт Gemini Omni и Veo как две отдельные линейки: Omni относится к семейству Gemini, а Veo остаётся специализированной линейкой видеомоделей. Правда, на странице самого продукта уточняется, что в приложении Gemini Omni придёт на смену Veo.

Доступ к функции пока ограничен. На данный момент она закрыта для пользователей младше 18 лет и требует платного плана Google AI. Среди заявленных возможностей — редактирование видео, многошаговая правка в рамках одного диалога и выбор соотношения сторон ещё до генерации.