動画から人の3D身体表面モデル生成フェイスブックがオープンソースで公開

フェイスブックの開発者チームは、画像処理システム「DensePose」をGitHubで公開しました。2Dの動画から人体の姿勢などを読み取り、3D身体表面モデルを生成するシステムです。

2段階のステップで立体画像を取得

これまで2Dの画像から立体的な人の体のイメージを得るには、マニュアルで変換を行う必要がありました。単純化すると、対象となる人を回転させてその表面のデータを取得しなければなりません。しかしこれはとても非効率的です。今回フェイスブックが開発したシステム「DensePose」は、2段階のステップで2D画像から立体的な動画を生成します。

まず、体のパーツとして意味を持つ部分ごとに、対象を分割します。衣服に隠れた部分も推測できるようにしているため、体を隠すような服を身につけていても、この後の処理は複雑になりません。

次に、先ほど分割したそれぞれの部分とおおよそ同じ距離にある点を集め、3Dモデルの表面に対応させます。この工程をシンプルにするために、あらかじめ体のイメージをとらえる視点を6か所決めておきます。アノテーターはこの6か所から最適な視点を選び、画像データを取得します。

[ads]

体を細分化し、3Dへ変換

この2段階のアノテーションにより、非常に正確かつ効率的にデータを取得することができます。第1段階のパーツ分けと、第2段階の3D身体表面モデルへの対応は、おおよそ同程度に短い時間で処理が可能です。第2段階がより複雑であることを考慮すると、驚くべき結果です。
フェイスブックは5万人の人から、500万以上の画像を得ました。下の図は、左から元の2D画像、視点の違う2つの3D身体表面モデルを撮影した画像となっています。

このように2Dイメージの体をパーツに細分化し、詳細な3D画像を生成します。全てのピクセル（画像の最小単位）について、「体のどの部分に属しているか」「2Dイメージのどの部分に対応しているか」を確認していくのです。

DensePoseのシステムは、深層学習をベースとしたアプローチにより構築されました。また、このシステム「DensePose」は、320×240サイズの画像でフレームレート25fps、800×1100サイズの画像で4～5fpsで動作すると推定されています。

フェイスブックは今後さらにパーツ分けの速度を上げるなど、システムの改善を図るとしています。

（参考）Facebook Open Source（Twitter）‏、DensePose

動画から人の3D身体表面モデル生成フェイスブックがオープンソースで公開

2段階のステップで立体画像を取得

体を細分化し、3Dへ変換

Mogura VR Store

ぶいのみせ

イベント・セミナー

Mogura NEXT

Mogura VR job

動画から人の3D身体表面モデル生成 フェイスブックがオープンソースで公開

2段階のステップで立体画像を取得

体を細分化し、3Dへ変換

動画から人の3D身体表面モデル生成フェイスブックがオープンソースで公開