Metaが好きな画風で任意視点の画像を生成する技術「SNeRF」発表へ

Metaは、2022年8月8日から8月11日に開催される国際会議「SIGGRAPH2022」にて、画風を指定できる自由視点映像生成技術「SNeRF」を発表します。「SNeRF」により、3次元のシーンを好きな画風で描画できます。本技術の研究を進めることで、ピカソやモネなど、好きな画風で描かれた世界を、VRヘッドセット等を使って歩き回れるようにすることを目指しています。

視点が移動しても違和感のない画像を生成

「SNeRF」は指定した画風で好きな視点からの画像を機械学習により生成する技術。近年研究が盛んに進められている機械学習ベースの自由視点画像生成技術「NeRF」と機械学習ベースの画風転写技術「Style Transfer」を組み合わせています。「被写体を複数の視点から撮影した画像」と「被写体に転写したい画風の画像」を入力して、指定の画風で新しい視点からの画像を描画します。

「SNeRF」は、これまでは困難だった視点間で一貫性のある高品質な画像を生成できることが特徴です。これまでの技術では、視点を変更すると被写体の同じ位置の色が異なる色で描画され、画像にちらつきが発生していました。「SNeRF」は、視点間の一貫性により、ちらつきなく視点を移動する映像を作り出せます。さらに、視点間の一貫性によってHMDで違和感なく立体視できる2視点画像を描画することが期待できます。また、人の顔を任意の視点と任意の表情で指定した画風で描画することもできます。

GPUメモリ使用量を削減し、GPU1つで動作可能に

「SNeRF」は、学習プロセスと描画プロセスから構成されます。学習プロセスは、複数視点の画像と画風を指定するための画像を基に描画用のモデルを学習します。描画プロセスは、学習したモデルを使って任意の視点の画像を描画します。

従来は学習プロセスで非常に多くのメモリを使用しており、必要なメモリの量は市販GPUのメモリ量を超えるほどでした。「SNeRF」は自由視点画像生成と画風変換の最適化を同時に行わず、交互に行うことで使用メモリ量を削減し、単一のGPUで学習できます。論文ではNVIDIA V100（VRAM 32GB）を利用しています。

なおこの描画プロセスは、1枚画像を描画するのに約1分かかり、リアルタイムでは描画できませんが、論文によれば「リアルタイムに描画が可能な別の手法と組み合わせることが可能である」とのこと。「SNeRFで利用されているNeRFは、学習時間と描画時間の両方において、汎化性能、品質、速度を向上させる研究がますます盛んになっています。この手法がAR、VR、MR向けの刺激的なアプリケーションの幅を広げることを信じています」としています。

（参考）論文、プロジェクトページ