ИИ от Google DeepMind: как генерация интерактивных миров ускоряет бизнес-инновации
Google DeepMind открывает доступ к Project Genie — своему революционному инструменту ИИ, способному создавать интерактивные игровые миры по текстовым подсказкам или изображениям. Это не просто шаг в индустрии развлечений, но и мощный сигнал для бизнеса о прорывных возможностях мировой моделирования.
Начиная с этого четверга, подписчики Google AI Ultra в США могут протестировать экспериментальный прототип исследования. Он работает на базе передовых технологий Google: новейшей мировой модели Genie 3, модели генерации изображений Nano Banana Pro и Gemini.
Пропуск в мир Project Genie всего через пять месяцев после анонса Genie 3 подчеркивает стратегическое стремление DeepMind оперативно собирать обратную связь и данные для обучения. Это позволяет компании ускорять разработку все более мощных мировых моделей, открывая новые горизонты для применения ИИ в бизнесе.
Мировые модели: двигатель для бизнеса и автоматизации
Мировые модели – это системы ИИ, способные создавать внутренние представления окружающей среды, предсказывать будущие результаты и планировать действия. Многие эксперты, включая специалистов DeepMind, видят в них ключевой этап на пути к созданию искусственного общего интеллекта (AGI). В ближайшей перспективе подобные разработки трансформируют не только игровую индустрию и развлечения, но и станут основой для обучения роботов и автоматизированных систем в симуляционных средах.
Выпуск Project Genie усиливает конкуренцию в сфере мировых моделей. Еще в прошлом году World Labs под руководством Фей-Фей Ли представила свой первый коммерческий продукт Marble. Стартап Runway, специализирующийся на ИИ-видеогенерации, также недавно запустил свою мировую модель. А новая компания Яна ЛеКуна, бывшего главного научного сотрудника Meta, AMI Labs, сосредоточится на разработке именно таких моделей.
“Это захватывающе — находиться там, где мы можем дать большему количеству людей доступ к этому и получить от них обратную связь”, — поделился Шломи Фрухтер, директор по исследованиям в DeepMind, с явным воодушевлением по поводу выхода Project Genie.
Исследователи DeepMind подчеркивают экспериментальный характер инструмента. Он может быть непоследовательным, иногда впечатляюще генерируя играбельные миры, а иногда выдавая неожиданные результаты. Давайте разберемся, как это работает.
Как создать мир: от идеи до интерактивности
Вы начинаете с «эскиза мира», предоставляя текстовые запросы как для окружающей среды, так и для главного персонажа, которым позже сможете управлять в первом или третьем лице. Nano Banana Pro создает изображение на основе ваших запросов, которое вы можете при необходимости изменить, прежде чем Genie использует его как отправную точку для создания интерактивного мира. Модель позволяет успешно вносить изменения, но иногда могут возникать небольшие отклонения (например, фиолетовые волосы вместо зеленых).
Также возможно использовать реальные фотографии в качестве основы для создания мира, хотя эта функция пока работает с переменным успехом.
Как только вы удовлетворены изображением, Project Genie за несколько секунд создает полноценный, исследуемый мир. Вы можете также перекомпоновать существующие миры, развивая их идеи, или исследовать готовые миры из галереи или с помощью инструмента рандомизации для получения вдохновения. Готовые миры можно скачивать в формате видеороликов, что открывает новые возможности для создания контента и прототипирования.
В настоящее время DeepMind ограничивает время генерации и навигации миров 60 секундами, что связано с бюджетными и вычислительными ограничениями. Поскольку Genie 3 является авторегрессионной моделью, для ее работы требуются значительные вычислительные ресурсы, что накладывает строгие ограничения на доступность для пользователей.
“Причина, по которой мы ограничиваем время до 60 секунд, заключается в нашем желании сделать его доступным для большего числа пользователей”, — объяснил Фрухтер. — “По сути, когда вы используете его, где-то есть чип, который предназначен только для вашей сессии и выделяется исключительно вам”.
Он добавил, что увеличение времени сверх 60 секунд снизило бы ценность инкрементального тестирования. “Окружения интересны, но в какой-то момент, из-за уровня взаимодействия, динамичность окружения становится несколько ограниченной. Тем не менее, мы рассматриваем это как ограничение, которое надеемся улучшить”, — отметил он.
ИИ знает, что такое художественный стиль, но совершенствуется в реализме
При работе с моделью уже были активированы защитные механизмы. Невозможно сгенерировать что-либо, напоминающее обнаженную натуру или материалы, даже отдаленно связанные с Disney или другим защищенным авторским правом контентом. (В декабре Disney подал иск против Google, обвиняя ИИ-модели компании в нарушении авторских прав путем обучения на персонажах и интеллектуальной собственности Disney и генерации несанкционированного контента.) Не получилось даже заставить Genie сгенерировать миры с русалками, исследующими подводные фэнтезийные земли, или ледяными королевами в их зимних замках.
Тем не менее, демонстрация оказалась впечатляющей. Первый мир, который удалось создать, был попыткой воплотить детскую фантазию: исследовать замок в облаках из зефира с рекой шоколадного соуса и деревьями из конфет. Была задана стилизация под пластилиновую анимацию, и модель выдала причудливый мир, который восхитил бы любого ребенка: пастельно-белые шпили и башни замка выглядели настолько аппетитно, что так и хотелось отломить кусочек и макнуть его в шоколадный ров (видео выше).
Тем не менее, Project Genie еще предстоит доработать.
Модели отлично справлялись с созданием миров на основе художественных запросов, таких как акварель, аниме-стиль или классическая мультяшная эстетика. Однако она часто не справлялась с фотореалистичными или кинематографическими мирами, часто выглядящими скорее как компьютерная игра, чем как реальные люди в реальной обстановке.
Также она не всегда хорошо реагировала на реальные фотографии. Когда была предоставлена фотография офиса и просьба создать мир, основанный на ней, модель выдала мир с некоторой мебелью из офиса (деревянный стол, растения, серый диван), но расположенной по-другому. И выглядело это стерильно, цифрово, нежизнеподобно.
Когда было подано фото стола с мягкой игрушкой, Project Genie анимировал игрушку, перемещающуюся по пространству, и даже заставил другие объекты иногда реагировать на ее движение.
DeepMind работает над улучшением интерактивности. Было несколько случаев, когда персонажи проходили сквозь стены или другие твердые объекты.
Когда DeepMind изначально выпустил Genie 3, исследователи подчеркнули, что авторегрессивная архитектура модели означает, что она может запоминать то, что она генерировала. Это было проверено, возвращаясь к уже сгенерированным частям окружения, чтобы увидеть, останутся ли они прежними. В большинстве случаев модель справлялась. В одном случае, когда была сгенерирована кошка, исследующая другой стол, только один раз, при возврате к правой стороне стола, модель сгенерировала вторую кружку.
Самой разочаровывающей частью стала навигация в пространстве с помощью стрелок для осмотра, пробела для прыжка или восхождения, и клавиш W-A-S-D для движения. Для тех, кто не является геймером, это было непривычно, а клавиши часто не реагировали или отправляли в неправильном направлении. Попытка пройти из одной стороны комнаты к дверному проему с другой стороны часто превращалась в хаотичное зигзагообразное движение, словно пытаясь управлять тележкой с поврежденным колесом.
Фрухтер заверил, что его команда осведомлена об этих недостатках, напомнив, что Project Genie — это экспериментальный прототип. В будущем, по его словам, команда надеется повысить реализм и улучшить интерактивные возможности, включая предоставление пользователям большего контроля над действиями и окружением.
“Мы не рассматриваем [Project Genie] как готовый продукт, которым люди могут пользоваться каждый день, но мы считаем, что уже есть проблеск чего-то интересного и уникального, чего нельзя сделать другим способом”, — сказал он.
🚀 Получите бесплатный аудит от ИИ прямо сейчас в нашем Telegram-боте: @futurebotsru_bot







