Home » 「空間オーディオ」って何? アップルとソニーの違いは? 分かりやすく解説


話題 2021.12.25

「空間オーディオ」って何? アップルとソニーの違いは? 分かりやすく解説

このところ「空間オーディオ(Spatial Audio)という言葉を耳にすることが多くなった。アップルやアマゾン、ソニーなどが積極的な展開をおこなったことで、音楽分野では2021年、技術的な部分ではもっとも注目すべき要素になった。

では、この技術はどういうものなのだろうか? VRやARなどにももちろん関係してくるし、そもそも地続きの技術と言っていい。その概要を改めて解説してみたい。

人はどうやって「耳」で音を聞いているのか

まず基本から入ろう。

人間は2つの耳で音を聞いている。シンプルにいえば左右2チャンネルのステレオ、ということになるのだが、現実はそこまで単純ではない。

現実空間での音は、いろいろなところで反響し、音同士が混ざり合って耳に届く。その際には、耳の形(いわゆる外耳の形)で音が反響・集中し、それが鼓膜を振動させ、神経に電気信号として伝わって脳で処理され「音」になる。

我々が音から立体感や空間を感じるのは、耳に入ってくる音を脳が認識する際に、反響など加味した情報から「空間を脳内で再構築している」わけである。すごい能力だが、これをさらに突き進めると、コウモリやイルカが持つ「エコーロケーション」という位置認識技術に行き着く。まあ、それはまた別の話としよう。

要は、本来周囲にある音とスピーカーから出てくる音が「違う」ことは間違いない。

そこで、レコーディングエンジニアが工夫して、左右のステレオでできる限り良い体験を作ろうとしてきたのが、いわゆる「ステレオでのオーディオ」の世界である。

当初はスピーカーが中心であり、2つのチャンネルの音をそれぞれ離れた場所にあるスピーカーから鳴らし、擬似的に音場を再現してきた。

そこに変化をもたらしたのは「ヘッドホンオーディオ」、すなわちウォークマンに代表される機器の登場である。耳の近くにヘッドホンをつけることで「音に包まれたような体験」が生まれ、音楽には、リアルなコンサートや演奏とはさらに違う体験が出来上がった。

ヘッドホンでは耳の近くから音を鳴らすことで、左右の音場の位置が変わる。元々スピーカー+周囲の空間で生まれていた音場感はなくなるのだ。これは一般的には「頭内定位」と呼ばれ、頭の中で音が鳴って立体感が感じられなくなる現象である。本質的には不自然なものなのだが、「音に包まれたような感覚」の方が優位なので、我々はそれを許容してきた部分がある。

……というのが、まず「オーディオ」としての事情だ。まずはこの辺を頭に入れておいていただき、次のフェーズに入る。

まずは「多チャンネル」からスタート

左右のステレオで音場を構成する行為には、本質的な限界がある。スピーカーの音は2ヶ所からしか出てこないが、現実にはいろいろな場所から音が発生するものだからだ。

映画館などでは、より迫力のある空間を作るために、複数のスピーカーを配置し、それぞれから音を出すことで、表現の密度をあげるようになっていった。スピーカーを配する相対位置がある程度定められていて、各スピーカーからの音を「チャンネル」として扱った。ステレオなら「2チャンネル」であり、前後左右に4つなら「4チャンネル」。前後左右に4つ、中央に1つ、さらに低音専用のサブを用意して「5.1チャンネル」となる。

だいぶ聴き慣れた単語が出てきたのではないだろうか。


(画像は5.1チャンネルのホームシアー用スピーカー)

元々は映画館向けの技術だったが、1980年代以降、それをホームシアターで再現するため、各チャンネルをまとめて提供する技術が出てきた。俗に「サラウンド」というと、この種の技術を指す。

いわゆるサラウンド技術では、本来、チャンネル数に応じた数のスピーカーを、適切な配列で並べる必要がある。ただ、家庭ではそれが難しい場合も多いため、ソフトウエア処理によってより少ない数のスピーカーやヘッドホンで聞こえ方を再現する技術も生まれてきた。それが俗に「擬似サラウンド」「バーチャルサラウンド」と呼ばれるものである。

この種の技術が普及することで、映画から音楽ライブ、ゲームまで、いろいろなコンテンツで「音が立体に聞こえやすい」環境を作れるようになってきた。

チャンネルを増やしてリアリティを上げるのは、同じ場所に座って作品を見る映画やコンサートには向いている。

一方で、映像の動きに応じて自分の向きが変わったり、映像の中のものがインタラクティブに動いたりするなら、単純に「チャンネルを増やす」よりも良いアプローチがある。また、映画などの場合でも「音が上から聞こえる」ような体験を実現するなら、新しい技術の導入を検討する必要がある。

そこで出てくるのが「オブジェクトベース・オーディオ」という考え方だ。

これは、CGにおける映像の作り方を音に変えたもの、と考えるとわかりやすくなる。

CGでは仮想空間の中にオブジェクトやライトを配置し、複数の光源からの光がオブジェクトに当たった結果の反射などを勘案した上で、空間内のカメラ(自分)から見える像を「撮影」するイメージで演算して映像を作る。

オブジェクトベース・オーディオは、簡単にいえばCGの光源を「音源」に変えたもの、ということになる。バーチャルな空間に音源を配置、そこから出る音が耳までどう伝わるかを演算することでリアルな音を再現する。といっても、音では映像ほど複雑な処理をしないため、負荷はそこまで大きくない。

元々この技術はゲームとの相性が良い。プレイヤーの動きに応じて音が変わること、敵などが発する音の位置を把握することがゲームをプレイする上でリアルさにつながるからだ。現在は多くのゲームで一般的に使われているが、特に「PlayStation 5」は力を入れている。オブジェクトベースの音を処理するための高性能専用プロセッサー「Tempest 3D Audio」を搭載し、差別化要因として活用している。

ゲームと相性がいい、ということはVR/ARとも相性がいい、ということでもある。仮想空間の中を移動する場合、音の情報は映像と同等以上に価値を持つわけで、当然、VR/ARでは重要な技術になっている。

VRでは、自分の移動に合わせて音の発する位置が変わっていくことが没入感を生み出す。ARでも同様だが、特にARの場合には、注視して欲しい場所や向かってほしい方向に合わせて音を出すことで、映像だけでなく音も「拡張する現実の一部」として使える。

音の位置から聞こえ方を決める「オブジェクトベース・オーディオ」

オブジェクトベース・オーディオは、ゲームなどのように自前で音を生成する方法もあれば、事前に収録していた音声データを再生する方法もある。音楽や映画で使われるのは主に後者だ。

音源を複数空間に配置する、という点はゲームなどと同じだが、音源をコントローラーで移動させるようなことはできない。ただ、自分を中心に立体的な音が聞こえるようになるので、首の動きなどと連動し、立体感を向上させることは可能だ。

例えば音楽の場合、前方奥のドラムの位置からドラムを収録した音、右手のギタリストの位置からギターを収録した音、中央のボーカルの位置からボーカルの音を配置して聞かせることで、「目の前で演奏している」感覚に近い形にする。過去のサラウンドと同じように感じるかもしれないが、ボーカリストの歌いながらの移動を再現したり、コンサートホールの反響や席の違いをイメージした加工を加えたりしていくには、オブジェクトベースの方がずっとやりやすい。

このためのデータフォーマットとしては、ドルビーが規定した「Dolby Atmos」と、ISO参加のMPEGで標準規格化されている「MPEG-H 3D Audio」がある。Dolby Atmosは映画やUHD BD、各種映像配信や、アップルやアマゾンの音楽配信で使われている。MPEG-H 3D Audioはソニーが採用し、「360 Reality Audio(360RA)」のブランド名で展開、アマゾンやDeezer、Nugs.netなど、いくつかの音楽サービスで使われている。

耳への聞こえた音をそのまま記録する「バイノーラル」

これらとは全く別に、立体的な音を記録する方法がいくつかある。

例えば、多数のマイクを立ててそれぞれの方向の音を記録する方法。その場所で聞こえる音を、マイクの向いている方向ごとに記録して、再生時にミックスすることで立体感を表現する。

ZOOMのボイスレコーダー「H3-VR」がこうした記録に使われる機器の代表例だが、写真を見れば、どんなふうに使うかがイメージしやすいだろう。

ZOOMのボイスレコーダー「H3-VR

もう一つの方法が、「耳で実際にどんな音が聞こえるか」の特性を真似て、ステレオ記録する方法だ。人の頭を模した「ダミーヘッド」の両耳にマイクをつけ、外耳での反響を再現して録音するのが「バイノーラル録音」と呼ばれるもの。この場合、ヘッドホンで聴くことで「録音時の環境を再現して」楽しむ場合が多い。


(バイノーラル録音用のダミーヘッドマイク「NEUMANN / KU100」)

秘密は「HRTF」にあり

音を「残す」「発生させる」方法はわかった。では、どうやって耳に届けるのだろうか?

映画館などで使われているのは、すでに述べたように多数のスピーカーを規格に合った形で配置する方法だ。本来はこれがもっとも理想的で、ホームシアターでも同じような考え方が採用されているものの、やはり機材と設備のハードルが高い。前出のように、音の反射などをうまくシミュレーションし、少ない本数のスピーカーで立体感を実現する方法もある。

そして、さらに身近にするには「ヘッドホン」を使う必要がある。現在、音楽・映画・ゲームなどで広がっているのは、ヘッドホンを使い、オブジェクトベース・オーディオを楽しむ方法ができたからでもある。

ヘッドホンで空間オーディオをきくと、立体感が生まれると同時に、ヘッドホンの根本的な課題であった「頭内定位」がある程度解消されるのがポイントだ。立体感があるだけでなく、より自然な感覚になる。これが、音楽サービスで空間オーディオが注目される理由である。

では、ヘッドホンで立体感を出すためにどういう仕組みが使われるのか? それが「頭部伝達関数(HRTF)」である。

我々が音を聞くときには、耳の形で反響した音や、音で生まれた頭で振動した音を鼓膜が受け取っている。頭や耳を通じて音が聞こえるとき、どう変化するかについての特性を数値化したのが「HRTF」。HRTFを使って音の周波数特性を変えると、ヘッドフォンから伝わる音が3Dオーディオとして感じやすくなる。

ただ、HRTFは個人差の多いデータでもある。主に耳の形で大きく変わるらしいのだが、HRTFが自分に合っていないと聞こえ方が変わり、立体感が感じられなくなりやすい。

企業は「空間オーディオ」技術をどう利用していくのか?

ここで、ソニーとアップルは好対照な手法を採用している。

ソニーは、提供するアプリ「Headphones Connect」に「誰でもそれなりに聞こえる標準的なHRTF」を設定した上で、個々人のHRTFを計測して最適化する仕組みを導入した。スマホアプリで耳を撮影し、そこから擬似的に個人のHRTFを算出する技術だ。これの場合にも、各ヘッドホンの音響特性に合わせたチューニングが必須になる。

そのためソニーは、360RAに最適化する機能を「自社のヘッドホン用スマホアプリ」に組み込み、さらに自社ヘッドホンとマッチすることで、HRTF最適化を実現している。言い換えれば、「どこのヘッドホンでも聴けるが、ソニー製だとより最適化された音が楽しめる」ことを差別化要因としているわけだ。


ソニーは耳を撮影し、そこからHRTFを個人最適化する技術を導入している。


(写真は上記の技術に対応した「ソニー ワイヤレスノイズキャンセリングイヤホン WF-1000XM3」)


(10月29日に発売されたワイヤレスネックバンドスピーカー「SRS-NS7」にも同技術が使われている)

この技術は同社と契約を交わしたヘッドホンメーカーも利用できる。現状では、ソニー以外にオーディオテクニカとラディウスがライセンス提供を受け、すでにオーディオテクニカから対応製品が発売になっている。

それに対してアップルは、同じように多くの人に合うHRTFを設定しつつ、ヘッドホン内の「モーションセンサー」を併用して対応している。モーションセンサーで検知した頭の動きに合わせて音場の方向や位置を変えることで、立体感を強調しているのである。

具体的にどう違うのか?

どちらも、どのヘッドホンを使っても「それなりの空間オーディオ体験」はできる一方、最も優れた体験を目指すのであればのは、それぞれのサービスで「対応ヘッドホン」を使うことが望ましい。

ソニーの「Headphones Connect」は同社製ヘッドホンのほとんど全てに対応し、他社ヘッドホンへもライセンスさえ結べば比較的簡単に対応できる一方、耳を撮影してHRTFを最適化する、という作業自体がかなり面倒である。

同じソニー製でも、PlayStation 5では扱いを簡単にするためか、HRTFの設計を「決め打ち」にし、耳の撮影などを行わずに体験できる形を採用している。コントローラーにヘッドホンをつなぐだけでよく、簡単に誰でも使えるのがポイントだが、将来的には、オーディオ向けと同じように個人の耳に合わせたHRFTのチューニングを導入することも検討されている。

一方アップルは、耳の測定のような面倒な作業はないものの、最高の空間オーディオ体験ができるのは、モーションセンサーを備えたアップル製のヘッドホン、具体的には「第三世代AirPods」「AirPods Pro」「AirPods Max」に限られる。


(写真は「第三世代AirPods」。このほか「AirPods Pro」「AirPods Max」だけが最も品質の良い空間オーディオを楽しめる)

現状、コンテンツの量や扱いの簡単さを含め、アップルの方が優位なように筆者は考えている。だが、この辺は、対応サービスや機器の種類が変わることで事情が変化するだろう。具体的な合意には達していないものの、アップルは、ソニーとの間で「360 Reality Audio対応楽曲の再生」の互換性について話し合っている状況で、年月が経てば、また色々な変化がある可能性もある。

なお、ゲーム利用については、Windows PC向けにEmbody社が「Immerse Spatial Audio」を提供している。これもまた、HRTFを最適化して個人に合わせた空間オーディオを提供する技術だが、今年12月7日に発売になった、スクウェア・エニックスの人気MMO RPG「ファイナルファンタジーXIV:暁月のフィナーレ」で正式対応が行われ、注目が集まっている。

どちらにしろ、こうしたヘッドホンの工夫によって、音楽からゲームまで、幅広い形で「空間の広がりを感じられる音響体験」が簡単に楽しめるようになってきた。

VRとは相性がいいのだが、ハードウエア面での利用はまだ限定的だ。現状はゲームなどのアプリで特殊効果のように使っている段階ではある。プラットフォーム側でのサポートが強化されれば使いやすくなるはずなので、今後は各社はうまく製品に組み込んでくることが期待される。

そういう意味では、PS5向けに開発が進んでいる「次世代PlayStation VR」は、PS5が空間オーディオ対応のプラットフォームであるだけに、うまく活用してくるのではないか、という期待がある。

ゲームだけでなく、ユーザーインターフェースに生かして操作しやすくするなどのアイデアもありそうなので、各社の工夫に期待したい。

執筆:西田宗千佳


VR/AR/VTuber専門メディア「Mogura」が今注目するキーワード