Home » AIの新フェーズ、NVIDIAがCESで語った「物理AI世界」を深掘りする


企業動向 2025.01.29

AIの新フェーズ、NVIDIAがCESで語った「物理AI世界」を深掘りする

今年のCESは「基調講演が面白かった」という声が多い。

中でも高い評価を得ているのがNVIDIAのジェンセン・ファンCEOによる基調講演だ。NVIDIAにより、日本語字幕付きで基調講演のビデオが公開されているので、ぜひ一度ご覧いただきたい。

ただ、その時間がないという方もいるだろうし、彼が語ったことの意味をより正確に把握したいという方もいるだろう。

ここでは、彼の言ったことの中からいくつかをピックアップし、その意味を解説していこう。そこには、AIやコンピューティングの未来であるだけでなく、XRの未来でもあるからだ。

なお、本記事内の画像は注記があるもの以外はNVIDIAの基調講演動画より引用したものである。

アピールの軸には「GPU」があるが……

このタイミングでNVIDIAがアピールしないといけないものが2つある。

1つは、発売を控えた「RTX 50系GPU」の発表。PC向けGPUはNVIDIAの祖業であり重要なものだ。初代のGPU製品である「NV1」と、そこで動いた「バーチャファイター」が大きな販促になったことを紹介し、その上で、現在開発中の「次のバーチャファイター」も動いていることをアピールした。


(NVIDIAがセガとのパートナーシップから産まれたことを強調)


(1月末に発売を開始下RTX50シリーズ。AI性能も強化)

もちろん、今のPC向けGPUはAI用途も重視されている。RTX50系はその部分の強化もアピールポイントではある。ただ同時に重要なのが、AIの力を表示解像度やフレームレートの補完にも使う、という点だ。その結果として、ゲーム側は表示解像度を4Kなどにし、フレームレートも60Hz以上を維持しつつ、処理負荷自体は下げていくことが可能になってきた。この辺は、上から下まで様々なバリエーションを販売し、ゲーム負荷自体もバリエーションが広いPC向けGPUにとっては重要な点だ。

一方で、現在のNVIDIAにとって、ゲーム向けGPU市場の売り上げはもう一部でしかない。2024年11月に発表された決算資料によれば、同年8月から10月の売上高331億6800万ドルのうち、ゲームむけは32億7900万ドルに過ぎない。その9.5倍にあたる307億7100万ドルがデータセンター向け事業によるものとなっている。

データセンター向けにアピールされたのが、「Grace Blackwell NVLink72」だ。一つの巨大な1枚のシリコンウェハーの上に作られたチップを盾のように掲げながらアピールした。


(キャプテン・アメリカのようにNVLink72を掲げるファンCEO)

完全に余談だが、ファンCEOを含め、NVIDIA開発陣はスーパーヒーロー好きで知られる。各チップの開発コード名はアメコミのスーパーヒーロー由来の場合がほとんど。ファンCEOがNVLink72を抱えてとったポーズも、キャプテン・アメリカの真似だ。

Blackwellは非常に高性能なGPUだ。AI開発や高負荷な演算を必要としている企業・研究者・開発者にとっては「いくらでも欲しい」のが実情だろう。NVIDIAもフル生産をしているが、追いつく状況にはない。

発表されたのはBlackwellやRTX50系のGPUだけではない。

「小型のスーパーコンピュータ」という触れ込みで公開されたのが「Project DIGITS」だ。


(Project DIGITS。年内に3000ドル程度で発売の予定)

まるでMac miniなどの小型PCのように見えるが、中身や性質は異なる。ARM系のCPUコアを使い、128GBの広帯域メモリーを搭載した新型のSoCである「GB10」を使った開発機材である。

これはRTX5090を搭載したPCや、サーバー向けのBlackwellほどの性能はない、省電力性重視の機器である。価格は3,000ドルとされており、コンシューマが購入するものとは言えない。だが、開発者が誰でも机の上に置いておける程度のサイズとコスト感ではある。開発者に対し、GPUを搭載したPCを買うのとは異なる道を示していると言える。

長い道のりの先には、Project DIGITSのような機器を一般の人々がPCの代わりに使う可能性もあるが、当面は「AI開発を身近にするもの」と考えていいだろう。


(Mogura VR編集部がCES2025現地で撮影した実機、タワー型のデスクトップPCなどと比べてかなり小さく、数回り大きいとはいえmac miniを彷彿とさせる)

演算力から生み出される

NVIDIAはGPUという形で、AIやハイエンドなグラフィックスを描くための演算基盤を用意している。次に重要になってくるのは、Blackwellのような高性能プロセッサーを使ってなにをするのか、ということだ。

ファンCEOの基調講演は、ここから「高性能なコンピューティング資産が存在する前提でどんな社会を作っていくのか」ということにシフトしていく。

実はここでNVIDIAは、「生成AIをさらに賢くするために高性能なGPUが必要」という単純な主張をしていない。主張しているのは、性能向上が3つのステップで、性能向上が変化をもたらすという「スケーリング則」の影響が大きい、という話だ。

AIがエージェント化すると、ソフト開発やユーザーサポートなど、多くの業務のアシスタントとして使われ、AIが我々の働き方をサポートするようになる。


(エージェントAIの時代になると、様々な仕事をAIがサポートするようになる)

さらには、様々な生成AIが並列に使われるようになっていく。

実景から奥行きを推定して3Dモデルを作り、さらにそれをリファレンスとして詳細な動画を生成すれば、少ない情報から多彩なバリエーションの動画を生成できる。


(生成AIのモデルを複数活用することで、実景を3D化し、そこから別の風景を生成するのも容易に)

重要なのは、少数の情報から大量の結果を生み出せるようになった結果、そこから「現実につながるシミュレーションや最適化」が視野に入ってくることだ。

ただそのためには、シミュレーションの結果が現実と相違ない(もしくは差が小さい)と判断できるように、物理法則を考慮した上で動画などを生成する仕組みが必要になる。

そこでNVIDIAが提唱したのが「ワールドモデル(世界基盤モデル)」。ワールドモデルとして利用することを前提に学習し、必要な機能を構築したのが「NVIDIA Cosmos」となる。これをNVIDIAはオープンソースで公開するが、同時に自社で環境構築したサービスとしても展開する。


(Cosmosで生成された映像)

Cosmosは、具体的には2000万時間のロボットと車両運転データを軸にしたデータから学習しており、ロボットや自動運転での効率化や画像解析に使える。

例えば、自動運転や工場管理では大量のビデオが蓄積されている。そこには本来重要な情報が多数含まれているが、人の目で見て活用するのは効率の面で難しい。

そのためAIによる解析が注目されているわけだが、単純に解析しても最大の効果は得られない。写っているものがなにで、どう動き、どう相互にインタラクションしているかをAIが理解することで始めて、実際の業務に活かせるデータになる。

そもそも走らせなくても、シミュレーションとして様々なシチュエーションの映像を生み出せば、それを効率化や状況確認に使うこともできる。


(Cosmosが生成した映像をシミュレーションに活用)

そのためには当然、物理法則を学習したAIが必要であり、そのためのワールドモデルでありCosmos……ということなのだ。

大量のシミュレーションを並列に行い、その様を活かすことを、ファンCEOは「マルチバース」に例える。この辺もスーパーヒーロー・SF文脈であり、ある意味例え方に一貫性を感じる。NVIDIAのビジネスに興味がある人々の多くにもわかりやすい例えかとも思う。


(複数のシチュエーションによるシミュレーションの並列化は「マルチバース的学習」を実現する)

デジタルツイン+生成AIで価値を拡大

ここで気になる点が1つ。

これまでもそうしたシミュレーション世界は存在した。いわゆるデジタルツインだ。

デジタルツイン的なものを使って様々なもののクオリティを上げる、ということは一般的に行われてきた。

Googleのホームセキュリティカメラである「Nest Cam」は、屋外の異常や室内でのペットの動きなどを検出する機能を持っている。その認識精度向上には、ゲームエンジンであるUnityで多数の画像を作り、それを使って教師あり学習を進めるアプローチが使われた。

自動運転でも、ソニー・ホンダモビリティは「AFEELA 1」開発の中でUnreal Engineを使い、街中のドライビングシミュレーションに活用している。

Cosmosは動画ベースのワールドモデルであり、正確にはデジタルツインではない。そこで組み合わせるのが「Omniverse」との連携だ。

OmniverseはNVIDIAが提供するデジタルツインプラットフォーム。現在も工場のライン構築や自動運転など、多数の用途に使われている。


(OmniverseはNVIDIAが提供するデジタルツインプラットフォーム)

Cosmosはあくまで「物理的現象を加味して学習した生成AIモデル」の集合体だが、Omniverseはオブジェクト同士の衝突・干渉を含めたより正確な「物理ベースでの演算」が可能である。Omniverseによる物理演算が、シミュレーションに対する「基礎的な根拠(Ground Truth)」として働くことになる。なにを配置するのか、実際にどう動かすのかといった部分はOmniverseが担当し、さらにCosmosを組み合わせると、映像の質感・再現性を高めることが可能になるわけだ。


(Omniverseがデジタルツインとして「根拠」となり、そこから映像を生み出す)

そうやって前出のようにそのサイクルを大量に回せば、実際にはまだ存在しない事象についての学習を加速することができる。


(OmniverseとCosmosの組み合わせで生成された映像の例)


(ドライブデータからさらに大量の学習データを生成することも可能に)

Cosmosはオープンソースであり、物理モデルによるデジタルツインはOmniverseだけに限定されているわけではない。

しかし両者があらかじめ揃っていることは、導入を加速する意味では大きな武器になる。NVIDIAはGPUを売るだけでなく、GPUに紐付くソフトウエアやソリューションをビジネスにしたいと考えている。その中核的な道具と考えればわかりやすいだろう。

ロボットや自動車と連携し「物理的世界」へ

さらに「デジタルツインとワールドモデル」の連携は、物理的な存在を経て価値を高めていく。

物理的な存在とはもちろん、ロボットや自動運転車だ。NVIDIAの基調講演後半では、現在開発中のヒューマノイドロボットがずらりと壇上に並んだ。


(壇上にはずらりとロボットが)

NVIDIAは以前より、「Issac」というロボティクス向けプラットフォームを構築しており、AIの基盤モデルとしては「Project GR00T(Generalist Robot 00 Technology)」という技術を持っている。Project GR00Tも、マーベルコミックスからの引用。実に徹底している。

GR00TはいわゆるマルチモーダルAIであり、言語理解と人間の行動シミュレーションを司る。ヒューマノイドロボット自体にNVIDIAのプロセッサーを搭載してGR00Tを搭載して処理することで、ロボットの制御を効率化する。

また、Issacは大量のシチュエーションを並列にシミュレーションし、そこからモーションやロボットのボディコントロールなどを生み出す。

Cosmos+Omniverseで行っていたことをロボティクスに広げ、同様の技術基盤と演算基盤で「現実を動き回るロボット」に活用したのがこのコンビネーション、ということになる。


(IssacとGR00T、ロボティクス技術を組み合わせれば、ロボットの学習と開発が加速する)

ロボットに動きを教え込む場合には、Vision ProのようなXR機器を使って現実とシミュレーションを重畳させ、そこから動きをとって活用する。その時には当然、Cosmos+Omniverseのようなテクノロジーがそのまま使える。10秒のトレーニングデータから膨大なデータを生成し「マルチバース学習」するわけだ。


(Vision Proのようなデバイスをロボットのトレーニングデバイスとし、さらにそこにAIを連携)

NVIDIAはこれら総体を「物理AI」と呼んでいる。1つ1つのAIはいわゆる強化学習などを指しているが、3Dデータを活用したデジタルツインとそこからの動画生成、さらには情報解析と、複数の要素を組み合わせて行くことで、実世界と地続きな活用を目指せるわけだ。

ロボティクスはその最たるものであるが、工場内のDXや自動運転も同様である。

過去にはデジタルツインでの物理演算が軸であったものが、そこに様々な形で生成AIを組み込み、データ量を爆発的に増やすことで、物理的世界との関わりを拡大している。もちろん、デジタルツインも生成AIも、実世界ほどの精度はない。しかし、量と判断を多重化することで、その価値を変化させている。

NVIDIAは演算力の源を売る会社だ。だが、そこで「生成AI開発に必要です」というシンプルな話をするのではなく、「生成AIや物理シミュレーションが幅広く使えるとすればどう変わるか」というビジョンを見せているところが興味深い。


(演算力の向上はAIの価値やあり方自体を拡大・変化させていく)

そして、いわゆるXR環境はその中で、人間と物理AIをつなぐ接点となり得る。

この種のアプリケーションが増えて行くことになれば、演算力だけでなく開発環境の拡散も必須になる。「Project DIGITS」のような小型の開発環境が必要になるのも、一般的なPCではなく「物理AI世界で必要になる演算力をベースにしたPCが必要」という発想に結びつくものかもしれない。

どこまでの連携が実際に受け入れられるのか、非常に興味深いところではある。

1つ言えるのは、NVIDIAは過去も「演算力だけを売っていた」わけではない、ということだ。

CUDAという開発環境があってはじめてGPUは幅広い用途に使われた。演算速度だけでなく、CUDAという存在があったからNVIDIAはここまで大きな存在になれた。

物理AI的な世界が拡大するのだとすれば、そこでは演算力だけでなく開発環境が必須になる。

NVIDIAの基調講演が示しているのは、同社が「世界観を拡大した上で、過去の成功を再現しようとしている」という話なのである。


VR/AR/VTuber専門メディア「Mogura」が今注目するキーワード