映画やゲームなどでは、映像の品質と共に音声/オーディオのクオリティも欠かすことができません。演出にもよりますが、多くの演者が登場するシーンで全員の声を聞き分けられる解像度の高さや、映像の外から聴こえてくる効果音によって、コンテンツそのものの雰囲気や臨場感を高められるのですから。
ところで近年、オーディオには大きな変化が起きています。それは立体音響を活用したコンテンツが増えてきていること。
従来、オーディオといえばステレオが一般的でした。しかし90年代以降に起きたDVD/ホームシアターブームによって、サラウンドを扱ったコンテンツが増え、近年はイヤホンやヘッドホンでも音による空間演出を認識しやすくなったことや、位置情報と連携しやすいXRデバイスが普及してきたことで、映画や一部のAAAタイトルゲーム以外でも、立体音響を用いたコンテンツが増えてきています。
個人的な印象ですが、立体音響の効果は極めて高いものだと実感しています。基本無料のゲームプレイ中には、幾度となく他のゲームのCMを見ることになりますが、そのCMに立体音響が使われていると、ハッと意識が覚醒する。聞こえる声や音の実像感が極めて高く「これはいったい何のコンテンツなのか」と前向きな姿勢になってしまうんですよね。
3DCGを視覚の3D化だとするなら、音の3D化が立体音響です。かつてはゲームなどのエンタメ向けに使われていた3DCGがエンターテイメントコンテンツ以外にも、様々な産業で使われるようになったように、立体音響も様々な分野で使われ始めています。
普通のイヤホンで、上下左右前後のあらゆる方向から音が聞こえるSound xR
立体音響を支えている技術の1つが、「次は、音だ」(Make spatial sound waves with Sound xR together)というキャッチコピーがつけられている、ヤマハの仮想立体音響ソリューション「Sound xR」です。
スマートフォンが主力のゲーム機となり、メディアプレーヤーとなった現在、イヤホン/ヘッドホンによる音楽体験が激増しました。しかし従来のステレオ音をイヤホン/ヘッドホンで聴くと、頭の中に小さなミュージシャンが集結してライブをしているような感覚になる頭内定位になりがち、という課題がありました。
この課題を解決し、自分をとりまく上下左右前後のあらゆる方向に広大なサウンドステージが広がり、音で、圧倒されるほどの没入感のあるリスニングを可能とするソリューションが「Sound xR」。具体的には、ゲームエンジンのUnityやUnreal Engine、サウンドミドルウェアCRI ADXやWwiseと連携するプラグイン「Sound xR Core」です。
「Sound xR」が活用できるのはゲームだけではありません。他のバーチャルライブといったエンタメXRコンテンツや、後述する「視覚障害の方の向けのナビゲーション」など、音の定位感が重要となる様々なユースケースで「Sound xR」を活用できそうです。また自動車などの音響デザインレビューといった産業領域での利用も可能です。
なぜリアルな音響空間の再現ができるのか?
音響空間の解像度を高めるとなると、従来は高価なハイエンドイヤホン/ヘッドホンやアンプを必要としていましたが、「Sound xR」は数千円で購入できる一般的な価格帯のデバイスでも解像度の高い空間を体験できます。
なぜ「Sound xR」は、幅広い環境でリアルな音響空間の再現ができるのでしょうか。それはリアルタイムHRTFレンダリング、つまり動的で高品位なHRTF処理が関係しています。
HRTFとはHead Related Transfer Functionの略語で、頭部伝達関数とも呼ばれます。
真正面にいる人の声は、原理上、左右の耳に同じ音が同時に届きます。しかし右斜め前から話されたときは、右耳のほうに早く、左耳のほうにはやや遅れて音が届きます。加えて自分の鼻や頬、外耳や肩などの影響を受けるので音が変化し、その変化の度合いも左右で異なります。この左右の耳で感じる音の違いで、音の方向感が生まれます。この音の変化の度合いをHRTFと呼び、ヘッドホンによる立体音響の再生で活用されています。
しかし、HRTFの正確な計測は難しい。人はそれぞれ頭や耳など身体的特徴が異なるため、特定の人で計測したHRTFを用いたサウンドデザインを行っても、他の人が聴くと違和感を覚えてしまうケースもあるんですね。一人ひとり個別に最適化したHRTFを用意する方法もありますが、数多くの人を対象にする場合、効率的な測定や運用の方法も考える必要がありそうです。
そこで「Sound xR」は、個人ごとのHRTFを用意するのではなく、多くの人が正しい定位感を得られるような皆で共用できるHRTFを用意しました。これはヤマハ独自の3D頭部形状データベースとシミュレーションを駆使して生成しています。
さらに定位効果を調整することで聴こえ方が異なるデータを複数用意し、コンテンツの演出や意図に応じて最適なHRTFをクリエイターが選べるようにしています。「クリエイター自身が作りたい音を、表現したい音を出せるように」が「Sound xR」 のコンセプトです。
また、ホームシアターや映画制作などで確立されたチャンネルベース、近年、空間の広がりや環境音の演出に使われてきているシーンベース(アンビソニックス)、ハッキリした音の定位感演出に使われるオブジェクトベース、これら3つの方式の立体音響サウンドデータを一括して扱えるのも「Sound xR」の強み。コンテンツの出力方式を問わず、より臨場感・実像感の高い音空間を構築・表現するのに最適なソリューションなのです。
「Sound xR」がもたらす高精度なナビゲーション
「立体音響はデジタルとフィジカルの境目を消しやすく、MR体験において非常に重要です」と話すのは、株式会社GATARI 代表取締役CEO 竹下俊一さん。GATARIは、Mixed Reality(MR)技術と「聴覚による体験」を組み合わせた独自のサービスを開発する企業です。2024年には、文化財施設の保存と活用の両立を目指す観光DXソリューションとして「イマーシブガイド」を提供。文化財施設の中をゆかりのある人物の声にエスコートされながら歩き回っているうちに、施設の歴史やそこに眠る物語が語られていくという没入体験を実現しました。「Sound xR」をUnityベースの自社アプリに導入し、さまざまなシーンでの活用を試みています。
竹下:スマートフォンの画面を見ることが前提のMRコンテンツだと、歩きスマホになってしまうのですが、目をあえて現実に委ねて、コンテンツを耳から体験するものに絞ることによって、ユーザー/プレーヤーに、自由に空間内を歩いてもらえるようになります。そして移動してもらう中で、空間の切り替わる場所に合わせてシーンベースのBGMもスイッチするというのも面白い体験ではあるんですけど、一方で自分の動きに対して音が滑らかに追従するような体験もインパクトが強いんです。
GATARIは聴覚を活かしたMRプラットフォーム「Auris」を提供しています。これは首から下げたスマートフォンのカメラで撮った空間スキャンデータを元に3次元的な位置や向き、滞在時間などをトラッキングし、身体の動きに合わせてインタラクティブに音声によるコンテンツを提供していくもの。「Sound xR」による立体音響が使われていて、真正面から聴く、横から聴く、後ろから聴くなど、自分の立ち位置によって聴こえ方が変わってきます。
竹下:実際に自分の体をともなってオブジェクトベースの音源の周りを歩いてみると、誰も居ない場所なのにリアルな人の存在を感じるとか、本当にそこから音が聞こえるみたいな体験は皆さんあまり体験したことがないようなんですよね。そこが、多くの方の驚きにもつながっています。
様々なユースケースで使われている「Auris」ですが、視覚障がいの方のナビゲーション技術としても高く注目されています。
竹下:日本科学未来館にて視覚障がいの方の向けの体験コンテンツを作らせていただいていますが、視覚障がいをお持ちの方の課題の一つに、“一歩目の向きがわからない”というのがあるんです。立体音響の「Sound xR」を使うと、明瞭な音がどの方向から聞こえてくるかが判断しやすいので、視覚障がいのある方にも向いて欲しい方向をお伝えしやすくなるんです。
「右を向いてください」と伝えても、どれくらい右向け右をしたらいいのか判断できない。目が見えている方であれば、目印となる柱や壁を伝えれば良いが、視覚障がいの方だとその術は使えない。この問題を解決できるのが「Sound xR」なのだそうです。
竹下:音の鳴る位置を空間に配置できるオブジェクトベースの音源は、誘導として使うのに適しています。特に視覚障がいのある方だと、音がどちらから聞こえているのかに敏感というのもありますし、ナビゲーションとしてかなり有効に機能しています。
エンターテインメントコンテンツにおいても、「Sound xR」に高い価値を感じているとのことです。
竹下:ポスターに描かれたキャラクターが体験者に喋りかけてくるような体験イベントを実施したことがあるんですけど、「Sound xR」を使うことで、ポスター内のキャラクターの口元から声が出ている、まるで本当に喋っているかのような実在感、臨場感を生み出すことができるんですね。
音が鳴っている方角を詳細に定めることができる。前後左右の2軸だけではなく、高さ情報も含めた3軸で音源の位置を決められる「Sound xR」。ヤマハ自身も以前、「Sound xR」の実証実験として、背の高い擬人化キャラクターが話しかけるというコンテンツを展開したそうですが、来場者の反応は上々。ファンの方にとっては、強烈なリアリティを感じ取れたそうです。
様々な立体音響ソリューションがあるなか、「Sound xR」の導入の決め手となったのはなんでしょうかと尋ねると、「Androidに対応していたこと」と竹下さんは答えてくれました。
竹下 以前までは他のプラグインを使っていたんですけど、しばらく更新がないなかで、Arm SoCの64bitアーキテクチャ(ARM64)に対応しなくなっちゃったんですね。それが原因でしばらくAndroidに対応できない時期が続いたのですが、「Sound xR」を知り、これであればモバイルでも問題なく動かせることから選びました。弊社に限った話ですが、モバイルもやってる以上、これ一択って感じですね。
実際に活用してみると、音による空間解像度の高さが期待以上だったそうです。
竹下 ナビゲーションで使う場合には、角度のズレが割とクリティカルな問題になります。15~30度くらいのズレでも、しばらく歩くと目的地とかなりズレてくるんですよね。でも「Sound xR」は解像度が高いので、その問題が起きにくいんです。弊社は視覚障がいの方向けの体験提供に多く取り組んでいますが、音声によるディレクションでも問題になることがなく、非常に助かっていますね。
※Arm SoC:アーム社のCPUコアのライセンスを受けて製造された「System on Chip」。
※ARM64:ARM Holdings社のマイクロプロセッサ(MPU/CPU)のアーキテクチャ。プログラムやデータを64ビット単位で処理する。
ゲームサウンド制作現場からみた「Sound xR」
「Sound xR」について「イヤホンやヘッドホンではステレオで止まっていたサウンド体験を進化させ、よりコンテンツの魅力を引き出せる」とお話いただいたのは、株式会社ノイジークロークのCEO、坂本英城さん。そして「VRでも2Dのコンテンツでも、表現の伸びしろとして立体音響があるのではないかと感じています」とおっしゃるのは、株式会社ノイジークローク インタラクティブサウンドデザイン部の部長、金井琢真さんです。
株式会社ノイジークロークはゲームサウンドや音楽の制作を幅広く手掛ける企業で、自社スタジオにDolby Atmos(7.1.4ch)対応の立体空間音響制作システムを導入するなど、立体音響技術にも積極的なサウンド制作会社として知られています。以前「Sound xR Core」のUnreal Engine版デモのサウンド制作を担当されたこともあり、その経験から得た知見を話してもらいました。
坂本:例えば前に2つのスピーカーがある状態で音を聞くって、360度どの方向からも音が聞こえる日常生活と比較すると不自然なことですよね。ゲームも映画もそうなんですけれども、ディスプレイの枠の横にも上にも、それをみている私たちの後ろにも本来はいろんな景色があるのに、一部を切り取って表示せざるを得ないという環境は、現実と比較するととても制限された状態です。しかし、立体音響の技術によって、音はリアルに近づいてきています。映像で表現できない部分を音でカバーできるというのは、僕ら音響関係のプロフェッショナルが求めていた世界ではあると思いますね。
ただし、従来の立体音響の技術はハードルが高かったそうです。
金井:立体音響の技術は100年ほど前から研究が行われてきました。バイノーラルという言葉であれば馴染みがあるかと思います。現在もダミーヘッドマイクを使って収録された臨場感のある声優さんの声がASMRコンテンツなどで使われています。このダミーヘッドを使った収録の場合は、収録の段階でどの角度から聞こえるのかということが固定されています。しかし、ゲームコンテンツ制作の現場からすると、どの角度で音が鳴っているかということはリアルタイムに変わっていくものなので、その角度の変化をもとに、ゲーム内プログラムでリアルタイムに処理をするのが大変だったんです。
そういった課題を解決する手段の1つとして、ノイジークロークは「Sound xR」に注目しました。
金井:座標情報のメタデータを使用する以前のバイノーラル処理では、音は立体的には聞こえるけど、バイノーラル処理を行う前の音と比べるとやっぱり違和感があるよね、と感じることがありました。しかし「Sound xR」を導入することで、その違和感が解消されました。定位の良さと、制作中にイメージしていた音の良いところ、その2つをバランス良く引き出すことが出来ました。
坂本:タスクが低減するといったことではないんですけどね。マイナスだったものがゼロになるんじゃなくて、ゼロからプラスにすることができるというのが「Sound xR」なのかなと。
金井:そうですね。工程としては新たな作業が発生しています。ただ、その分、これまでにない質感の音を出せるので、よりコンテンツの魅力を引き出せるといったプラスのメリットがあります。
実際に「Sound xR」を活用したコンテンツを公開してから、ゲームのプレーヤーやユーザーからどのような反響があったのかと質問したところ、「なにも言われないのが最高の褒め言葉なんです」(坂本さん)とのことです。
坂本:サウンドエフェクトの世界は、不自然だった時に初めて話題になるんですね。映画でもそうなんですけど、目の前に滝が流れているのに、滝の音がしなかったら不自然ですよね。だけど、滝の音がきちんとした立体音響で鳴っていたら、誰も、なにも言わないんですよ。僕らの中では、それこそが最高の褒め言葉だ、と言っています。
金井:「Sound xR」を使ったバージョンと、使わないバージョン、両方を用意して、聴き比べてもらってから、初めてその違いがわかるかもしれません。「Sound xR」を使っていないほうだと、音に関してうっすらと物足りなさを感じる、みたいなところがあるのかなと。
坂本:言葉で説明するのは難しいんですけども、立体空間にただサウンドをアサインした状態は、料理で例えると調味料が混ざっていない状態といいますか。塩なら塩、胡椒なら胡椒の味が分かれちゃって個別に味がしてしまいます。先ほどの滝の例でいえば、目の前に滝があって、滝の音は鳴っているけれど、それが滝を含めたすべての風景や空間の中でナチュラルに馴染んだ状態で鳴っているか、というのは別の問題で、そこをナチュラルな状態にするのが腕の見せどころだったわけですが、「Sound xR」を使ってひと手間かけるだけで、目の前の映像と音がしっかりと馴染み、空間の解像度を大きく向上させることができるようになりました。
金井:従来の立体音響のプラグインは細かい調整が出来ないものが多かったのですが、「Sound xR」はバランスの良いプリセットがいくつもあるし、定位感を高めながらも元の音の質感もちゃんと残っているといった音が作れるんですよね。
坂本:かゆいところに手が届く機能を持ちながらインターフェースも簡単。これはもうヤマハさんの技術の集大成だな、と感じますね。
金井:マルチプラットフォームに対応している点も、導入の決め手となりました。他のバイノーラル処理は使用できる環境が限られていて「他のゲーム機への移植をしない」という前提のタイトルじゃないと使いにくいケースもありますが、「Sound xR」はコンソールであってもモバイルであってもゲームを買っていただけたら同じ音空間の体験ができますし、サウンドエンジニアがイメージする音を、どの端末でも再現できます。
「Sound xR」がさまざまな領域の“音のあり方”を変えていく
取材をはじめるまで、立体音響は映画やVRなど、一部のカテゴリのコンテンツで使われるものだと感じていました。しかし皆さんのお話を聞くにつれ、実はカテゴリを問わず注目するべきだし、積極的に使っていくべき技術ではないだろうか、と実感しました。
今回紹介したようなゲームや映像、音声MRコンテンツだけではなく、音楽ホールでの立体反響音の再現や遠隔会議においての課題解決といった、さまざまな活用の可能性がある「Sound xR」。このツールで実現する立体音響が、エンタメ領域から広がって使われ始めています。3DCGが多くの産業の“イメージの可視化”を変えてきたように今後さまざまな領域の“音のあり方”そのものを大きく変えていくきっかけになっていく、そんな存在になるのでしょう。
「Sound xR」公式サイトはこちら(お問い合わせはページ下部を確認ください)
本文中に記載されている製品名およびサービス名は、各社の登録商標または商標です。