Home » 「新しい知覚世界への扉を作りたい」視覚情報を音に変換するヘッドセット『Sight』開発者にインタビュー


テック 2016.03.31

「新しい知覚世界への扉を作りたい」視覚情報を音に変換するヘッドセット『Sight』開発者にインタビュー

2月20日(土)、21日(日)に開催された第22回未踏事業成果報告会で、新たな知覚体験を創出するヘッドセット「Sight」の発表がされました。

Sight

「Sight」は特殊なカメラから入力した映像を音に変換して、空間の情報を聴くことで世界を知覚する装置です。一言で言えば「耳で視る」ことを可能にし、目を使わなくても聴覚のみを用いて空間の構造や物体の配置を理解することを目的としています。

初期段階の「Sight」デモ動画、トンネルの映像を音に変換した動画は、メディアにも取り上げられ反響と驚きを呼びました。

https://www.youtube.com/watch?v=JX9ZvkpKWN8

今回、未踏事業成果報告会での「Sight」直後の休憩時間中に開発メンバーの和家尚希さん、伏見遼平さん、鈴木良平さん、宗像悠里さんの4人にインタビューを行いました。

※未踏事業成果報告会は経済産業省所管のIPA(情報処理推進機構)が行う「未踏事業」の最終発表の場です。「未踏事業」は、ITを駆使したイノベーションの創出と、突出した若い人材を発掘・育成することを目的としています。また、採択された各プロジェクトには豊富な経験を持つPMが開発のバックアップをします。

Sight

ハッカソンで生まれた「視覚世界を音として体験できるデバイス」という構想

Sight左から鈴木良平さん、和家尚希さん、宗像悠里さん、伏見遼平さん

――発表会での「Sight」への反応も非常に良かったと感じました。早速ですがみなさんが出会ったきっかけは何だったのでしょうか。

和家尚希氏(以下敬称略):
東大大学院で行われたJPHACKSというハッカソンにこの4人で参加したのが最初の機会でした。僕が知り合いの鈴木と伏見に声を掛けて、伏見が知り合いの宗像に声を掛けてという形で出会いました。
伏見遼平氏(以下敬称略):
僕と宗像も別のハッカソンで知り合ったんですよ。知り合いのエンジニアが宗像を紹介してくれて。やっぱり一度共に作業をしたことがあると、お互いの信頼関係がありますので。
宗像悠里氏(以下敬称略):
ちなみに僕を伏見に紹介してくれた知人もハッカソンで知り合いました(笑)。

―― ハッカソン繋がりなんですね。ちなみに宗像さんはビジュアルの担当をされていらっしゃる。

宗像:
はい。主にハードウェアのデザインを担当しています。ビジュアルイメージなども制作しています。チームのような形で分担して作業していますね。

―― 「Sight」のプロジェクトはいつ頃始まったのですか

鈴木良平氏(以下敬称略):
JPHACKSの時にアイディアが出来ました。当時と今とでは技術の部分でだいぶ違うのですが、基本のコンセプトである「視覚世界を音として体験できるデバイス」というのは、JPHACKSの時にできました。なので一昨年の12月ですね。ハッカソン中に「Sight」のアイディアの考えつきました。
伏見:
わりとみんなネタを持ってきてハッカソンに挑むというものらしいんですけど、僕らは本当に何も持ってこずに正々堂々と(笑)。あと、ハッキングハックなはずなのに技術的なものに重きが置かれずに、ビジネス的なものになってしまうのがもったいなと思いました。

―― 未踏に応募されたので、事業化も考えられているのかなと思いました。

伏見:
なるほど。たしかに最近の未踏はそういう印象がありますね。でも僕たちは必ずしも事業化というのを目指して未踏に応募したというわけでは無いです。あくまで研究の資金を支援してもらえるというのを目指してというのではあります。

知的好奇心に従って開発した

―― 「Sight」のアイディアが生まれてからデバイスは4回のバージョンアップがあったと発表でありました。何か紆余曲折を経て今の形になったのでしょうか。

鈴木:
技術的には最初と全く違っています。ハードウェアの形も変わりましたね。ただ基本の思想は変わっていません。途中で心理学者のJJギブソンが面白いなと感じて、特に人が空間をどう感じているのだろうかというのは、前々から興味があって、それが軸になっているというのはあります。でも、意外とぶれていないですよ(笑)。

―― PMの石黒先生からアドバイスなどはありましたか。

和家:
色々なアドバイスをいただきました。石黒先生をはじめとするPMの方々からの質問について考えて応じていくことで、本来自分たちがやりたかったことって何だったんだろうと考え直すことができ、Sightの根底にある思想を洗練させることができたと思います。
鈴木:
石黒先生からは、せっかくだから役に立つものを作った方が良いのではといったメッセージをいただきました。例えばスマホを見ながらでも安全に歩けるようにするとか。でもそれって僕たちからするとあまり面白くないなと。僕たちが純粋に知的好奇心があるのはどういうものなのかなと探していくと、全然違う分野、美学について研究している東工大の伊藤亜紗先生が似た発想で研究をされていました。実際にお話を聞きに行っても、僕らと基本の考え方がすごく似ていました。伊藤先生は視覚障碍者の方と晴眼者の方で、どちらかが劣っているということではなく、それぞれが違った視覚の様式を良さとして認めようと考えられていて、そこが僕らの研究のモチベーションと一緒でした。

―― ユーザーは盲目の方を対象にされているのでしょうか。

伏見:
必ずしもそうではないですね。どちらかと言えば、僕たちがそのような世界に入り込んでいきたい、そのような世界を体験したり、理解してみたい、レポートしてみたいというのが中心にあって、盲目の方以外もユーザーになると考えています。そういう思考だからこそ、「Sight」は見たものや風景を学習したりとか、3Dシュミレーターを使ってデバイスを操作する練習をしようという考えになったのかなと思います。障碍者支援というだけではそういう発想には至らないかなと思います。そういった障碍者の世界の中に溶け込めるにはどうすれば良いかというのを考えながら作りました。

障碍者の方に役に立つやり方というのもいくつかあると思います。まず、直接役に立つものを作るという方法。そして、回りくどい方法になってしまいますが、お互いの理解を深めていくという方法。障碍者の方は僕たちと同じようには世界を見えていないかもしれませんが、例えば触覚などを通じて世界の色々な情報を知ることができています。どのように世界を知ることができるのかが分かれば、助けることだったり、一緒に生きていく上で役に立つこともあると思っています。相互理解をしていくことの方が、僕たちの目指したいことに近いのかなと考えています。

音から世界を再構成して『見る』という体験

―― 発表会後には体験会も開かれていました。その時の体験者の反応はどうでしたか。

鈴木:
やっぱり今回はちゃんとした練習のフェーズを作っていなかったので、まずはどんなものか体験してみて下さいということだったので「これは中々練習してみないと使いこなすのは難しいですね」という反応が大半でした。ただ何名かは、「ここに壁があって、あっちにも壁がありますね」とか結構凄い精度でバシバシ当てている人も数人いました。そういう方は、音から空間認知に対して割り当てることができるという、ちゃんとした練習のフェーズなしにできるというのが面白い知見でしたね。

Sight

―― 「Sight」を体験してみて、みなさん自身が知覚の部分などで変わってきたことなどはありますか

鈴木:
具体的な体験の面白さとしては、数時間の「Sight」の体験を何度かして、目で見ている時は当然モノの輪郭があって、モノは常にある固まった範囲の中であり続けるという当然のことが当然に感じられなくなりました。「Sight」を付けている状態だと、同じ方向を見ていても必ずしも同じ音が聞こえるとは限りません。ちょっとずつ音のぶれがあったり、頭を動かすことによって音の微妙な動きの、例えば段々音の高さが変わったりします。

体を動かすことによってそこにモノがあるという気配を感じるという、空間や壁や物体を捉えるというか、そこに何かがある確率があるという思考で世界を捉えるようになっていきました。そこで段々経験しているうちに、壁の位置などに確信を持てるようになって、そうすると普段見ていたような、かっちりとした輪郭のある世界観ではなくても、空間の中では確信を持って世界を捉えることができるようになります。それはある種、音の情報で見えるということに到達する可能性があるなと感じられるようになりました。目を使うのは全く違う感覚なんだけども、確かに空間は機能としては把握できます。

伏見:
今、思い出して面白いなと思ったのが、みなさんが初めて「Sight」の音を聞いていただいた時に、結構不気味な音だとか、暗い印象を音色から思われる方が多いみたいで、ただそれは僕としては結構意外で、もうずっと「Sight」を付けていると、それだけが世界とのインタラクションなので、あまり音の音色そのものは結構消えてしまうんですね。音そのものの印象というものがあまり残らない。それよりも、行動すると音が変化する、現れてくる世界という方が記憶に残っているという意味で、一般的な音を聞いているという体験とは別に、音から世界を取り出しているという、音から世界を再構成して見えていると体験に近いのかなと思っています。

――言語が日本語環境でない海外の方も普通に「Sight」を使えるんですか。

鈴木:
使えますよ。DCEXPOでは外国の方にも体験してもらって、あまり日本人の方と変わらなかったですね。「これ面白いね」「分かる分かる」みたいな感想でした。具体的な応用は何だと思いますかと聞いてみても、やっぱり目が見えない方に使えそうだと言われました。

―― 後天的に盲目になった方に対してリハビリとして使えるのかなとも思いました。

鈴木:
視覚の映像を音にするというアイディア自体は結構前からありました。それこそ石黒先生が90年代にやられていた研究がそれで。それはカメラで撮影した画像をメロディーに変換するみたいな。それまでそういう研究の蓄積があるのですが、それまでのアプリケーションは主として後天的なリハビリテーション支援というのは中心的に行われてきたようですね。

―― なるほど。では、PMの石黒先生から色々とアドバイスもあったではと思うですが。

和家:
システムの内部の作り方から出力の仕方に至るまで様々なアドバイスを頂いたのですけれども、例えば内部の話で言いますと、どういう風に物体を認識するべきか、どういった情報を音に変換すべきかというところは、石黒先生とも何回かの合宿とかで議論しました。今日の発表会でもありましたけど、立体音響の要素は絶対入ったりしたほうが良いんじゃないかとは言われて、これは取り入れましたよ。

『見える』という『概念』を実現すれば良い

―― 最初のバージョンと最後のバージョンで音化する映像の違いなどはありましたか。

和家:
取得する映像の種類と、そこから取り出す情報が変わりました。以前は普通のカメラで撮るようなカラーの画像を使っていたのですけれども、今は主に距離の情報を使っています。取り出される情報も違っています。最初のバージョンは画像中のどこに角があるかといった見た目の特徴の情報だけが音に変換されるというものでした。今はさらに情報が統合されて空間のどの位置に物体や壁があるかといった情報が音に変換されています。かなり伝わっている情報の質が変わっています。

―― 最初からそういう空間の把握ということに狙いをさだめていたのですか。

和家:
そうではなかったです。色々と試していく中でアップデートされた結果今に至るという感じです。

鈴木:
最初の方のアイディアでは人間の目の神経を耳に繋ぎ変えたらどうなるんだろうか、そういうところの興味から始まりました。なので出来るだけ人間の目と同じようなカメラを使って、人間の脳で行われているのと似せたコンピュータビジョンの変換を行っていました。

例えば人間の脳も角を抽出するような処理をしているのですけれども、途中まではある程度人間の脳と同じような角を抽出する処理をして、それを途中で急に音を合成するための処理するように使えば、目から耳に神経を繋ぎ変えるような働きが起こって、モノが耳によって見えるようになるんじゃないかと考えていました。

最初の頃は単純と言えば単純な、かなりラディカルに神経科学の方に寄ったアイディアだったのですけども、やっぱりそれは難しすぎると判断しました。リソースも無いので、短い期限でどうやって研究を進めたらいいのか分からない、研究に100日かかるかもしれないし、これでは全然まとまった結果にはならないと。

そこで途中からは、そもそもの『見える』という概念を分析しました。「Sight」で『見える』という概念を実現できるのであれば、本当の目が獲得できない情報であってもを、例えば深さカメラは3次元の情報を取れるのである意味人間の目よりも優れた情報を取れるのですが、それを使うのもアリなんじゃないと思うようになりました。それは大きな方針転換としてあります。

Sight

―― 「Sight」の目標、ゴールはなんでしょうか。

鈴木:
ゴールの設定は難しい。理想的にはこれで目と同じだけの情報を把握することができたらというのはあります。もちろんそれはもの凄く面白いだろうし、実現できればもの凄く有用だろうというのはあるのですけれども、それは完全にSFの世界で、正直言って、そこまではおそらく出来ないだろうと思います。そもそも目と耳では扱える情報量も違いすぎる。でも、完全な視覚の代替は出来ないけれども、僕たちが考えている一番大事なアプリケーションのためにどこまでできれば良いのかなというのがゴールの設定の上で重要になってくると思います。
伏見:
僕は「Sight」を体験してもらった人に100%何らかを持って帰ってもらえるものがあるという状態がベストかなと思っていて、例えば2,3分これをやってみたら何か見えた感じがあったりだとか、今は得意な人、不得意な人と別れてしまうのですが、周りの環境によってとかで使いこなすのに影響が出てきますけれども、何か自分の実感として、音の情報から見えたという言ってもらえるような体験をしていただくというのが目標としてはあります。

―― 「Sight」を使うことでイルカやコウモリのように音で世界を把握できるようになることを目指すという記事も見かけました。

伏見:
直接イルカやコウモリのマネをするというよりは、彼らみたいな視覚に憧れて、もう1つの視覚を作るみたいなそういうモチベーションでやっています。彼らの視覚を実現したい、彼らに近づきたいという気持ち自体はずっと持ち続けています。彼らがどのような世界を見ているのかというのは凄い興味があります。大きなモチベーションの1つではあります。

―― VRのコンテンツの中に組み込んじゃうというのもアリなのかなとも思いました。

伏見:
映像として見えないように何も出さなければ良い話ですからね。
和家:
少し話していたのが、カメラだけゲームの中に取り込めば、今あるゲームを「Sight」視点で遊べるよねというのはありますね。

―― 前に伏見さんはVRのお化け屋敷のVRコンテンツも開発されていたと思います。そういったVRに興味があってというのもあるのでしょうか。

伏見:
お化け屋敷も作りましたね。じつはあれも鈴木と一緒に作ったんですよ。人に楽しんでもらおうと考えたときに、結果的にVRの力を使ったという感じですね。デプロイ(※)できる小さな空間の中で面白い体験をしていくという時に、VR技術を借用していくというのは結構でてくるかなと思いますね。

※デプロイ:アプリケーションを動かすことのできる状況にすること

みんなが未体験の世界に行けば新しいコミュニケーションが生まれる

―― また、発表会の資料だと製品化を目指すという文言もあったかと思います。

伏見:
そうですね。ただ製品化というよりは、もっとたくさんの人に「Sight」を知ってもらう上で量産化というイメージですね。

―― 「Sight」を複数個開発するということですね。また、DMM.makeの名前も「Sight」のパンフレットには入っています。

伏見:
DMM.makeさんには、未踏ファンデーションを通じて、DMM.makeさんのスペースの支援と3Dプリンタなどでの開発をサポートをしていただいています。フィラメントやメンテナンスの費用も全てDMM.makeさんが持っていただいてくれているので、非常にありがたいですね。ヘッドセットの細かい裁縫の部分も設備は全部DMM.makeの設備を使っています。縫ったのは昨日の話ですけども(笑)。

――最後に「Sight」を開発する際の一番大きなモチベーションというのを教えてください。

和家:
「Sight」を通してやりたかったことというのは、自分たちが普段住んでいるような視覚世界、目で物を見るという世界から離れて、別のやり方で物を見るという経験をすることでした。それこそイルカになったらどんな世界体験なんだろうかとか、「Sight」ならどんな世界体験ができるんだろうかとか、そういった新しい視覚の世界にちょっと行ってくる、旅行することを実現したいと思っています。私たちはこの体験を「知覚旅行」と呼んでいます。そういった世界にみんながちょっと行けるようになって、未体験の世界でみんなが新しいコミュニケーションができたらいいですよね。そういった「異なる世界への扉」を作りたいというのが大きなモチベーションになっています。

※「Sight」(Prototype)」のプロモーションムービー


VR/AR/VTuber専門メディア「Mogura」が今注目するキーワード