Home » NVIDIAが物理AI向けの“世界モデル”「Cosmos」をオープンソースで公開 デジタルツインを使ったAIの学習が加速


業界動向 2025.01.08

NVIDIAが物理AI向けの“世界モデル”「Cosmos」をオープンソースで公開 デジタルツインを使ったAIの学習が加速

NVIDIAは、ラスベガスで開催中のCES2025にてデジタルツインを活用したAIの学習環境生成プラットフォーム「Cosmos」を発表しました。Cosmosは、AIが物理世界を学習し、複雑なシナリオを効率的に生成するためのソリューションです。

Cosmosは、NVIDIAが提唱する「物理AI(Physical AI)」の開発を加速させるための基盤ソリューションです。物理AIとは、ロボットやドローン、自動運転車などが実世界で活動するために必要な知見を学習したAIを指します。Cosmosは、こうした物理AI向けに「世界モデル(World Foundation Model)」を提供することで、AIが実世界に近いシミュレーション空間で学習・検証を行えるようにする点が大きな特徴です。

Cosmosでは、プロンプトにより世界を構築することができるようになり、従来は大量のリソースや専門知識を要していた環境生成を簡易化しています。例えば、ロボットが倉庫内で走行するシナリオやドローンが屋外を飛行する状況など、多様な環境を再現するためのモジュールが用意されています。それらを組み合わせることで目的に合ったトレーニング環境をスピーディに構築可能です。また、シミュレーション内の物理演算や挙動パターンの精度が高いため、実際の運用に近い学習データが得られるとのこと。こうして得られたデータを用いれば、AIモデルの精緻化も進み、物理空間でのタスク実行のパフォーマンス向上が見込めます。


(写真や動画からシミュレーションシナリオを抽出できる)

CosmosはNVIDIAが手がける他のプラットフォーム「Omniverse」との連携も強調されています。Omniverseはさまざまな3DデザインツールやCADソフトウェアとの高い互換性を持ち、複数のユーザーが同時に同じ仮想空間上で作業を進めることを可能にします。Cosmosが生成した高精度の環境データをOmniverseに取り込み、リアルタイムで設計・シミュレーションを行うことで、開発効率や品質がさらに向上すると期待されています。

CES2025の基調講演にて、NVIDIAのCEOジェンスン゙・ファンは、Cosmosの利用方法を紹介しています。

ビデオ検索と理解:開発者は、雪道の状況や倉庫の混雑など、ビデオ データから特定のトレーニング シナリオを簡単に見つけることが可能になります。
物理ベースのフォトリアルな合成データ生成Cosmos モデルを使用し、NVIDIA Omniverseプラットフォームで開発された制御された 3D シナリオからフォトリアルなビデオを生成することができます。
フィジカル AI モデルの開発と評価:基盤モデル上にカスタム モデルを構築したり、強化学習のために Cosmos を使用してモデルを改善したり、または特定のシミュレーション シナリオでのパフォーマンスをテストする場合などに活用できます。
先見性と「マルチバース」シミュレーションCosmos Omniverse を使用して、AI モデルが取る可能性のあるすべての将来の結果を生成し、最善かつ最も正確なパスを選択可能にします。

NVIDIAによると、Cosmosはすでに1X、Waabi、Uberなどロボティクス分野や自動運転分野でAIを開発している企業ですでに利用が始まっているとのことです。

Cosmosの世界モデルは、オープンモデルライセンスに基づいて公式サイト経由でNGC CatalogHugging Faceで提供されています。また、画像やビデオをトークン変更するトークナイザーがGithubで、データ処理パイプラインである「NVIDIA Nemo」は開発者サイトにて公開されています。

技術詳細を含むCosmosの詳細は公式サイト及び開発者公式サイトを参照してください。

Omniverseと組み合わせて即座に環境生成

CES2025のNVIDIAの展示コーナーで展示されていたデモは、NVIDIAの提供するOmniverseにCosmosの世界モデルを組み込んで、シンプルな3DCGで作った環境を1分程度でフォトリアルな環境に生成し、動画として出力するというもの。

簡単なデモだが、Cosmosの可能性を感じられるデモでした。担当者によれば、「Cosmosはあくまでもオープンソースの世界モデルなので、Omniverse以外のツールにも組み込める」とのこと。デジタルツインでの利用だけでなく、3DCG環境生成の民主化に期待したいところです。


(Omniverseのツール「USD Composer」にCosmosを組み合わせて使用しているデモ。左に映っているのはガレージを描画した非常にシンプルな3DCG。右のテキストウィンドウに自然言語でプロンプトを入力する)


(入力されているプロンプト。どのようなシーンなのかを言葉で記述している)


(プロンプトを実行して1分ほどで出力されたもの)

(参考)NVIDIACES2025 NVIDIA Keynote


VR/AR/VTuber専門メディア「Mogura」が今注目するキーワード