グーグルが開発する「TensorFlow」に、3Dデータ関連機能を搭載したライブラリ「TensorFlow 3D」が追加されました。スマートフォンにおける3Dのデータの利用を、より導入しやすいものとします。
スマホの3Dシーン認識が進化
ToFセンサーやレーダーなど、3次元位置推定に関するスマートフォンの技術進化が続いています。2020年にはアップルがiPhone 12 Proや新型i Pad ProにLiDARを搭載、より精度の高いAR機能を実現しています。
その一方で、3次元データの利用にはいまだ課題があるというのがグーグルの考えです。同社は「コンピュータービジョンの分野は、近年3Dシーンの認識で目覚ましい進歩を遂げています。(…)しかし3Dデータに対応するツールやリソースが不足しているため、この分野に手を付けることはハードルが高くなっています」と開発者ブログに記載。TensorFlow 3Dでを活用することで、このハードルを下げる目的があるものと見られます。
個別オブジェクトの区別や背景との見分けなど
「TensorFlow 3D」には主要な機能(機械学習モデル)が3つ用意されています。ひとつめは「3D Semantic Segmentation(セマンティック・セグメンテーション、画像内の各画素にカテゴリを関連付ける)」モデル。オブジェクトと、背景のシーンを区別することができます。
次に「3D Instance Segmentation(インスタンス・セグメンテーション)」モデル。複数のオブジェクトの集合から、1つ1つを区別することができます。例えばSnapchatのARレンズで、画面に映る複数の人物に、それぞれフィルターをかけるといった動作を実現します。
そして「3D Object Detection(物体検出)」モデルでは、画像内に映る特定のカテゴリーのオブジェクトを見分けます。
これらの機能は、LiDARを搭載していない一般的なスマートフォンのカメラでも動作します。「TensorFlow 3D」のライブラリは、GitHubにて公開中です。