人間にまた一歩近づく話者とアバターの口の動きがリアルタイムに連動

ディズニーの技術研究部門であるDisney Researchと複数の大学との共同研究によって、バーチャル空間内のアバターが発話する際の口の動きを再現する技術が発表されました。このシステムにはディープラーニング（深層学習）を使用することで、アバターの口の動きをより正確に、リアルに再現することができます。

アバターの口の動きをリアルタイムで再現

研究に参加したのはDisney Researchをはじめ英国のイースト・アングリア大学、カリフォルニア工科大学、カーネギーメロン大学で、本技術は論文「ディープラーニングを用いたアニメーションの生成（A Deep Learning Approach for Generalized Animation）」に掲載しています。

この論文で紹介している技術は、単一の話者を撮影した参照映像を教師データとして用いるもので、映像は約8時間に及び、2,543個のセンテンスを収録しています。このデータを用いて、話者が発話をする際の様々な口の動きをディープラーニングによってシステムが学習することで、発話データのみを基にしてそれに応じた口の動きを自動的に生成できるようにするものです。

これによって、様々な人の発話データをシステムが分析してそれに応じた口の動きを自動的に生成して、CGアバターに適応することができます。また、他の様々な言語にも対応可能で、デモ動画ではアメリカ、イギリス英語をはじめドイツ語、韓国語、中国語やポーランド語などの様々な言語話者の口の動きをスムーズに再現しています。

ソーシャルVRで活用できる技術

従来のアニメーション制作では、キャラクターが発話する際の口の動作は、熟練したアニメーターが手作業で描き込んでいました。しかし音声データのみで自然な口の動きを自動生成する本システムは、アニメーション制作に大きなメリットをもたらします。

VRにおいては、本技術はソーシャルVRでの活用が見込まれます。バーチャル空間内で他者とのコミュニケーションができるソーシャルVRでユーザーが発話する際、アバターの口の動きをリアルに再現することによって、バーチャル空間内でのコミュニケーションがよりリアルで、臨場感のあるものになります。

現在は表情トラッキングを用いて、目と口の動きをリアルタイムでトラッキングできるVRデバイスも登場していますが、このようなデバイスや技術が普及するまでは、発話データに応じて口の動きを自動生成する技術が役立つものと思われます。

いくつかのソーシャルVRアプリでは、ユーザーの発話に応じてアバターの口の動きを再現する技術が既に使用されています。またOculusはUnity向けに、音声からバーチャル空間内のアバターに口の動きを再現するプラグインも公開しています。

しかし、これらの技術は入力された音声のみを基にして口の動きを再現しますが、今回発表された技術はディープラーニングを用いることで、口の動きをより細部に至るまで、正確に再現することが可能になります。

（参考）
Road to VR / New Procedural Speech Animation From Disney Research Could Make for More Realistic VR Avatars（英語）
https://www.roadtovr.com/disney-research-procedural-speech-animation-vr-deep-learning/

Mogura VRはRoad to VRのパートナーメディアです。

人間にまた一歩近づく話者とアバターの口の動きがリアルタイムに連動

アバターの口の動きをリアルタイムで再現

ソーシャルVRで活用できる技術

Mogura VR Store

ぶいのみせ

イベント・セミナー

Mogura NEXT

Mogura VR job

人間にまた一歩近づく 話者とアバターの口の動きがリアルタイムに連動

アバターの口の動きをリアルタイムで再現

ソーシャルVRで活用できる技術

人間にまた一歩近づく話者とアバターの口の動きがリアルタイムに連動