Google Veo, серьезный удар по AI-созданию видео, дебютирует на Google I/O 2024
Google стремится испытать OpenAI’s Sora с помощью Veo, модели искусственного интеллекта, способной создавать видеоролики 1080p примерно длительностью в минуту по текстовому запросу.
Представленная во вторник на конференции Google I/O 2024, Veo может захватывать различные визуальные и кинематографические стили, включая пейзажи и таймлапсы, а также вносить изменения и корректировки в уже созданное видео.
«Мы исследуем функции, такие как порождение сценариев и создание более длинных сцен, чтобы увидеть, на что способен Veo», - сказал журналистам Демис Хассабис, руководитель лаборатории искусственного интеллекта DeepMind в Google, во время виртуального круглого стола. «Мы сделали невероятные успехи в области видео».
Veo продолжает коммерческую работу Google по генерации видео, представленную в апреле, используя семейство моделей генерации изображений Imagen 2 компании для создания циклических видеороликов.
Однако, в отличие от инструмента на основе Imagen 2, который мог создавать только видеоролики низкого разрешения продолжительностью несколько секунд, Veo кажется конкурентоспособным с современными ведущими моделями генерации видео - не только с Sora, но и с моделями от стартапов, таких как Pika, Runway и Irreverent Labs.
На брифинге Дуглас Экк, руководитель исследовательских работ в области генерации медиа в DeepMind, показал мне некоторые отобранные примеры того, что может делать Veo. В частности - аэросъемка оживленного пляжа - продемонстрировала преимущества Veo перед конкурирующими видеомоделями, сказал он. «Детали всех пловцов на пляже оказались сложными как для моделей генерации изображений, так и видео - так много движущихся персонажей», - сказал он. «Если посмотреть внимательно, прибой выглядит довольно неплохо. И чувство слова-подсказки 'оживленный', по моему мнению, передано всеми людьми, живущими на берегу».
Veo был обучен на большом количестве видеоматериалов. Это обычно происходит с генеративными моделями искусственного интеллекта: предоставляются пример за примером какие-то формы данных, модели находят закономерности в данных, позволяющие им создавать новые данные - в случае Veo это видеоролики.
Откуда поступило видео для обучения Veo? Экк не стал давать точного ответа, но он признал, что часть из них, возможно, была взята с собственного сервиса YouTube компании.
«Модели Google могут быть обучены на некотором контенте YouTube, но всегда в соответствии с нашим соглашением с создателями YouTube», - сказал он.
Часть «соглашения» технически может быть верной. Но также верно, что, учитывая сетевые эффекты YouTube, создателям не так уж много из чего выбирать, если они надеются достичь наиболее широкой аудитории.
В апреле журнал New York Times сообщил, что в прошлом году Google расширил свои правила использования в частичной мере, чтобы разрешить компании использовать больше данных для обучения своих моделей искусственного интеллекта. По старым условиям использования не было ясно, могла ли Google использовать данные YouTube для создания продуктов за пределами видеоплатформы. Не так с новыми условиями, которые значительно разрывают узды.
Google далеко не единственный гигант технологической отрасли, использующий огромное количество пользовательских данных для обучения внутренних моделей. (См .: Meta.) Но то, что наверняка разочарует некоторых создателей, - настаивание Экка на том, что Google устанавливает здесь «золотой стандарт» с точки зрения этики.
«Решение этой проблемы с данными для обучения будет найдено путем сбора всех заинтересованных сторон, чтобы выяснить, какие будут следующие шаги», - сказал он. «До тех пор, пока мы не сделаем эти шаги с заинтересованными сторонами - речь идет об индустрии кино, музыкальной индустрии, самых художниках — мы не сможем двигаться быстро».
Тем не менее Google уже предоставил Veo выбранным создателям, включая Дональда Гловера (также известного как Childish Gambino) и его легальное агентство Гильга. (Как OpenAI с Sora, Google позиционирует Veo как инструмент для творчества.)