Googleは、2022年6月20日に開催されたCV4ARVRにて、モーションキャプチャ技術「BlazePose GHUM Holistic」を発表しました。「BlazePose GHUM Holistic」は、機械学習によりカメラの映像からリアルタイムで人の形状と姿勢の3次元情報を取得する技術。体の姿勢だけでなく、手や指の動きまで取得できます。
また、スマートフォンやノートPCなどのモバイル端末上でもリアルタイムで動作することが特徴です。取得した姿勢により、アバターの操作やフィットネスやスポーツの動作追跡、姿勢補正、ARやVRの3Dエフェクト付加が可能となります。
手の動きを含む人の3次元姿勢や3次元形状を取得できる
「BlazePose GHUM Holistic」では、手の動きを含めた3次元姿勢に加えて、人の3次元形状を取得できます。体の「ランドマーク」を取得した後、手の領域を撮影画像から切り出して手のランドマークの詳細な位置を取得します。
画像上の2次元座標ではなく、3次元座標が得られるため、実世界座標系でアバターなどに動きを反映できます。また、33の体のランドマークに加えて、片手あたり21のランドマークの3次元位置を取得できます。手のランドマーク位置はジェスチャーの検出などに利用できます。実験によると、体のランドマーク位置は誤差5cm以下、手のランドマーク位置は誤差2cmの精度で取得できます。将来的には顔の表情のキャプチャにも対応することを計画しているとのこと。
(それぞれMediaPipe Pose、MediaPipe Handsより引用)
スマホでもリアルタイムで動作
「BlazePose GHUM Holistic」は、デバイス上でリアルタイムに動作させることを考えて軽量なパイプラインで設計されています。最近のスマートフォンでは15fps程度で動作、実験によれば、2017年に発売したGoogleのスマートフォン「Pixel 2 XL」では18fpsで動作します。
また、カメラ以外のセンサーを必要とせず、モバイル端末単体で動作します。この技術により、これまでたくさんのカメラやセンサを利用した高価なシステムでしか実現できなかったモーションキャプチャを消費者が利用できるようになることが期待されます。