GoogleのAI研究開発組織・DeepMindが、ゲーム環境を自動生成できる世界モデル「Genie 2」を発表しました。本モデルは、画像やプロンプトから多様で対話可能な3Dゲーム環境を生成。AIエージェントのトレーニングやテストへの活用が期待されています。
「Genie 2」は大規模ビデオデータセットで学習された世界モデル(World Models)で、キーボードやマウス入力による操作が可能な仮想ゲーム世界をリアルタイムで生成できます。従来の世界モデルが、2Dなど制約のある領域でのモデリングに限定されていたのに対し、Genie 2は3Dの多様な世界を生成する能力を持っています。
本モデルの大きな特徴の1つが、テキストから生成された画像を元に、インタラクティブな環境を作り出せること。ユーザーは好みの画像を1つ選び、そこから完全に新しい世界を作ることができます。各ステップで、人間やAIエージェント(行動システム)がキーボードやマウスで操作すると、Genie 2は次の観測結果をシミュレーションし、最大1分間(通常は10〜20秒)の一貫した世界を生成できます。なお、Genie 2が提案する画像群は、同じくDeepMindが提供する画像生成AI「Imagen 3」が生成したものです。
Genie 2は、オブジェクトの相互作用、キャラクターのアニメーション、物理シミュレーション、エージェントの行動予測など、高度な機能を備えています。実世界の画像からも環境を生成でき、草を揺らしたり、川の水の流れをモデル化できるとのことです。
今後のAI研究開発にとって、Genie 2はAIエージェントのトレーニングと評価において大きな可能性を秘めています。DeepMindが開発したゲームプレイAI「SIMA」を用いた実験では、Genie 2を使用して青と赤の 2つのドアがある3D環境を生成し、SIMAエージェントに各ドアを開く指示を与えました。SIMAは自然言語の指示に従って、さまざまな3Dゲームワールドでタスクを完了するように設計されています。この実験では、「SIMA自らがキーボードとマウスの入力によってアバターを制御し、Genie 2がゲームフレームを生成した」と明らかにしています。
DeepMindはこの技術が将来的により一般的で、安全なAIシステムの開発につながると考えています。現時点では研究の初期段階にあり、今後、環境生成の汎用性と一貫性を改善する予定です。
(参考)Googe DeepMind