NVIDIAは、ラスベガスで開催中のCES2025にてデジタルツインを活用したAIの学習環境生成プラットフォーム「Cosmos」を発表しました。Cosmosは、AIが物理世界を学習し、複雑なシナリオを効率的に生成するためのソリューションです。
Cosmosは、NVIDIAが提唱する「物理AI(Physical AI)」の開発を加速させるための基盤ソリューションです。物理AIとは、ロボットやドローン、自動運転車などが実世界で活動するために必要な知見を学習したAIを指します。Cosmosは、こうした物理AI向けに「世界モデル(World Foundation Model)」を提供することで、AIが実世界に近いシミュレーション空間で学習・検証を行えるようにする点が大きな特徴です。
Cosmosでは、プロンプトにより世界を構築することができるようになり、従来は大量のリソースや専門知識を要していた環境生成を簡易化しています。例えば、ロボットが倉庫内で走行するシナリオやドローンが屋外を飛行する状況など、多様な環境を再現するためのモジュールが用意されています。それらを組み合わせることで目的に合ったトレーニング環境をスピーディに構築可能です。また、シミュレーション内の物理演算や挙動パターンの精度が高いため、実際の運用に近い学習データが得られるとのこと。こうして得られたデータを用いれば、AIモデルの精緻化も進み、物理空間でのタスク実行のパフォーマンス向上が見込めます。
CosmosはNVIDIAが手がける他のプラットフォーム「Omniverse」との連携も強調されています。Omniverseはさまざまな3DデザインツールやCADソフトウェアとの高い互換性を持ち、複数のユーザーが同時に同じ仮想空間上で作業を進めることを可能にします。Cosmosが生成した高精度の環境データをOmniverseに取り込み、リアルタイムで設計・シミュレーションを行うことで、開発効率や品質がさらに向上すると期待されています。
CES2025の基調講演にて、NVIDIAのCEOジェンスン゙・ファンは、Cosmosの利用方法を紹介しています。
● ビデオ検索と理解:開発者は、雪道の状況や倉庫の混雑など、ビデオ データから特定のトレーニング シナリオを簡単に見つけることが可能になります。
● 物理ベースのフォトリアルな合成データ生成:Cosmos モデルを使用し、NVIDIA Omniverse™プラットフォームで開発された制御された 3D シナリオからフォトリアルなビデオを生成することができます。
● フィジカル AI モデルの開発と評価:基盤モデル上にカスタム モデルを構築したり、強化学習のために Cosmos を使用してモデルを改善したり、または特定のシミュレーション シナリオでのパフォーマンスをテストする場合などに活用できます。
● 先見性と「マルチバース」シミュレーション:Cosmos と Omniverse を使用して、AI モデルが取る可能性のあるすべての将来の結果を生成し、最善かつ最も正確なパスを選択可能にします。
NVIDIAによると、Cosmosはすでに1X、Waabi、Uberなどロボティクス分野や自動運転分野でAIを開発している企業ですでに利用が始まっているとのことです。
Cosmosの世界モデルは、オープンモデルライセンスに基づいて公式サイト経由でNGC CatalogやHugging Faceで提供されています。また、画像やビデオをトークン変更するトークナイザーがGithubで、データ処理パイプラインである「NVIDIA Nemo」は開発者サイトにて公開されています。
技術詳細を含むCosmosの詳細は公式サイト及び開発者公式サイトを参照してください。
Omniverseと組み合わせて即座に環境生成
CES2025のNVIDIAの展示コーナーで展示されていたデモは、NVIDIAの提供するOmniverseにCosmosの世界モデルを組み込んで、シンプルな3DCGで作った環境を1分程度でフォトリアルな環境に生成し、動画として出力するというもの。
簡単なデモだが、Cosmosの可能性を感じられるデモでした。担当者によれば、「Cosmosはあくまでもオープンソースの世界モデルなので、Omniverse以外のツールにも組み込める」とのこと。デジタルツインでの利用だけでなく、3DCG環境生成の民主化に期待したいところです。
(Omniverseのツール「USD Composer」にCosmosを組み合わせて使用しているデモ。左に映っているのはガレージを描画した非常にシンプルな3DCG。右のテキストウィンドウに自然言語でプロンプトを入力する)