Fashion

Google Veo, серьезный удар по AI-созданию видео, дебютирует на Google I/O 2024

Американская хромография Wednesday, May 22 2024

Google стремится испытать OpenAI’s Sora с помощью Veo, модели искусственного интеллекта, способной создавать видеоролики 1080p примерно длительностью в минуту по текстовому запросу.

Представленная во вторник на конференции Google I/O 2024, Veo может захватывать различные визуальные и кинематографические стили, включая пейзажи и таймлапсы, а также вносить изменения и корректировки в уже созданное видео.

«Мы исследуем функции, такие как порождение сценариев и создание более длинных сцен, чтобы увидеть, на что способен Veo», - сказал журналистам Демис Хассабис, руководитель лаборатории искусственного интеллекта DeepMind в Google, во время виртуального круглого стола. «Мы сделали невероятные успехи в области видео».

Veo продолжает коммерческую работу Google по генерации видео, представленную в апреле, используя семейство моделей генерации изображений Imagen 2 компании для создания циклических видеороликов.

Однако, в отличие от инструмента на основе Imagen 2, который мог создавать только видеоролики низкого разрешения продолжительностью несколько секунд, Veo кажется конкурентоспособным с современными ведущими моделями генерации видео - не только с Sora, но и с моделями от стартапов, таких как Pika, Runway и Irreverent Labs.

На брифинге Дуглас Экк, руководитель исследовательских работ в области генерации медиа в DeepMind, показал мне некоторые отобранные примеры того, что может делать Veo. В частности - аэросъемка оживленного пляжа - продемонстрировала преимущества Veo перед конкурирующими видеомоделями, сказал он. «Детали всех пловцов на пляже оказались сложными как для моделей генерации изображений, так и видео - так много движущихся персонажей», - сказал он. «Если посмотреть внимательно, прибой выглядит довольно неплохо. И чувство слова-подсказки 'оживленный', по моему мнению, передано всеми людьми, живущими на берегу».

Veo был обучен на большом количестве видеоматериалов. Это обычно происходит с генеративными моделями искусственного интеллекта: предоставляются пример за примером какие-то формы данных, модели находят закономерности в данных, позволяющие им создавать новые данные - в случае Veo это видеоролики.

Откуда поступило видео для обучения Veo? Экк не стал давать точного ответа, но он признал, что часть из них, возможно, была взята с собственного сервиса YouTube компании.

«Модели Google могут быть обучены на некотором контенте YouTube, но всегда в соответствии с нашим соглашением с создателями YouTube», - сказал он.

Часть «соглашения» технически может быть верной. Но также верно, что, учитывая сетевые эффекты YouTube, создателям не так уж много из чего выбирать, если они надеются достичь наиболее широкой аудитории.

В апреле журнал New York Times сообщил, что в прошлом году Google расширил свои правила использования в частичной мере, чтобы разрешить компании использовать больше данных для обучения своих моделей искусственного интеллекта. По старым условиям использования не было ясно, могла ли Google использовать данные YouTube для создания продуктов за пределами видеоплатформы. Не так с новыми условиями, которые значительно разрывают узды.

Google далеко не единственный гигант технологической отрасли, использующий огромное количество пользовательских данных для обучения внутренних моделей. (См .: Meta.) Но то, что наверняка разочарует некоторых создателей, - настаивание Экка на том, что Google устанавливает здесь «золотой стандарт» с точки зрения этики.

«Решение этой проблемы с данными для обучения будет найдено путем сбора всех заинтересованных сторон, чтобы выяснить, какие будут следующие шаги», - сказал он. «До тех пор, пока мы не сделаем эти шаги с заинтересованными сторонами - речь идет об индустрии кино, музыкальной индустрии, самых художниках — мы не сможем двигаться быстро».

Тем не менее Google уже предоставил Veo выбранным создателям, включая Дональда Гловера (также известного как Childish Gambino) и его легальное агентство Гильга. (Как OpenAI с Sora, Google позиционирует Veo как инструмент для творчества.)

Экк отметил, что Google предоставляет инструменты для того, чтобы веб-мастера могли предотвратить сканирование их данными компанией. Но настройки не применяются к YouTube. И Google, в отличие от некоторых из его конкурентов, не предлагает механизма, позволяющего создателям удалить свои работы из наборов данных обучающих данных после их скрапинга.

Я спросил Экка также о регурсии, когда модель создает зеркальную копию примера обучения. Было установлено, что такие инструменты, как Midjourney, выводят точные кадры из фильмов, включая «Дюна», «Мстители» и «Звёздные войны», когда указана временная метка, что представляет собой потенциальное правовое поле разминирования для пользователей. OpenAI, по сообщениям, приняло меры, чтобы заблокировать торговые марки и имена создателей в подсказках для Sora, чтобы избежать вызовов по авторским правам.

Какие шаги предпринял Google для смягчения риска регургитации с Veo? Экк не дал ответа, кроме как сказать, что исследовательская группа внедрила фильтры для насильственного и откровенного контента (таким образом, нет порно), и использует технологию SynthID от DeepMind для пометки видеороликов от Veo как созданному искусственным интеллектом.

«Мы собираемся убедиться, что для такой масштабной модели, как модель Veo, мы постепенно выпустим ее для небольшого набора заинтересованных сторон, с которыми мы сможем работать очень близко, чтобы понять последствия работы модели, и только после этого распространим ее на более широкую группу», - сказал он.

Экк также поделился техническими деталями модели.

Экк описал Veo как «довольно управляемую» в том смысле, что модель достаточно хорошо понимает движения камеры и спец.эффекты из запросов (мы можем говорить о таких описаниях, как «панорамирование», «увеличение» и «взрыв»). И, как и Sora, Veo имеет некоторое понимание физики - такие вещи, как динамика жидкости и гравитация - что способствует реализму создаваемых видеороликов.

С Veo также поддерживает маскированное редактирование для изменений в конкретных областях видео и може...а порождать видео из статического изображения, как генеративные модели, такие как Stable Video от Stability AI. Возможно, наиболее интригующее, при условии последовательности запросов, которые вместе рассказывают историю, Veo может создавать более длинные видеоролики - видеоролики длиннее минуты.

Это не означает, что Veo идеален. Отражая ограничения современного генеративного искусственного интеллекта, объекты в видеороликах Veo исчезают и появляются без объяснений или последовательности. И Veo часто неправильно понимает физику - например, автомобили непонятно, невозможно разворачиваются на месте.

Поэтому Veo останется за списком ожидания на Google Labs, портале компании для экспериментальной технологии, на неопределенный срок, внутри нового интерфейса для создания и редактирования видео с использованием генеративного искусственного интеллекта под названием VideoFX. По мере улучшения Google намерена внедрить некоторые возможности модели в YouTube Shorts и другие продукты.

«Это очень много работы в процессе, очень много экспериментов ... здесь сделано гораздо больше, чем еще недоделано», - сказал Экк. «Но я думаю, что эти сырые материалы для того, чтобы сделать что-то по-настоящему прекрасное в кинематографической области».

Мы запускаем новостную рассылку по искусственному интеллекту! Подпишитесь здесь, чтобы начать получать ее в свои ящики 5 июня.