Home » まるで名探偵コナンの蝶ネクタイ型変声機。おめシスもさわったAIボイスチェンジャー「RVC」って何?


話題 2023.05.04

まるで名探偵コナンの蝶ネクタイ型変声機。おめシスもさわったAIボイスチェンジャー「RVC」って何?

VTuber・おめがシスターズの投稿動画「【超技術】ピーナッツくんの声で通話したら気づく?」が話題となっています。

この動画では、ボイスチェンジャー「RVC」を使用して、おめがレイさんが自分の声をピーナッツくんの声に変換し、おめがリオさんや甲賀流忍者ぽんぽこさんに通話をするというドッキリを仕掛けています。

その音声変換のクオリティは極めて高く、画面を見なければピーナッツくん本人が話していると勘違いする可能性が高いでしょう。この驚愕の性能を誇る「RVC」とはなにか。本記事にて解説していきます。

AIを活用した高精度なボイスチェンジャー

「RVC(Retrieval-based Voice Changer)」は、AIによって声質変換を行うリアルタイムボイスチェンジャーです。声質変換に加えて学習機能もあり、特定の話者の声を学習したボイスモデルを生成することができます。さらに、複数のボイスモデルをマージ(融合)することで、新たなボイスモデルを作成することもできます。

「RVC」の基本操作をWebブラウザから行える「RVC WebUI」も提供されており、音声素材と相応のスペックのPCがあれば、音声学習から声質変換までを手軽に行うことができます。また、「RVC」に対応したリアルタイム音声変換ソフトも存在しており、そのほかのソフトウェアと接続することで「Discord」などでも活用できます。

「RVC」の特徴は、「RVC WebUI」も活用した手軽で高速な学習と、既存のボイスチェンジャーを遥かに凌駕する音声変換のクオリティです。上記のおめがシスターズの動画でも、おめがリオさんはなかなか見抜けなかったほど。動画内ではその性能を「名探偵コナン」に登場するアイテム「蝶ネクタイ型変声機」に例えられていました。

かんたんな使い方の流れと注意点

「RVC」を用いた音声学習の流れを軽くご紹介します。まずは「RVC」本体(RVC-beta.7z)をダウンロードします。機械学習向けデータ共有プラットフォーム「Hugging Face」のアカウントが必要になるので、事前に作成しておきましょう。

ダウンロードしたら「RVC-beta.7z」を、ファイル圧縮・解凍ソフト「7-Zip」などを使って解凍します。解凍して出てきたフォルダ内にある「go-web.bat」をダブルクリックすれば、「RVC WebUI」が立ち上がります。

表示された画面の「トレーニング」を選択すると、音声学習用の画面になります。「実験名を入力してください」で任意の名前を入力した後、「トレーニング用フォルダのパスを入力してください」に、音声素材を配置したフォルダのディレクトリを記載します。

そして画面下部の「ワンクリックトレーニング」をクリックすれば、音声学習がスタート。成功すれば、「実験名を入力してください」で入力した名前のファイルが生成されています。これがボイスモデルです。

あとは、このボイスモデルを用いて音声変換を開始するだけです。「RVC」に対応した音声変換クライアント「VC Client」を活用するのが鉄板ですが、このあたりの技術は進展が極めて早いため、本記事ではそのセットアップなどは割愛します。

注意点として、学習に用いる音声素材は、「音声学習に使用してよいこと」が規約上OKであるものを使用してください。規約上NGのもの、あるいは音声学習に関する規約が設けられていないもの(≒想定されていないもの)は、無断で学習に使用すると大きなトラブルの原因になります。また、音声素材はノイズが少ないものを多数必要とするため、知識がない状態から自力で用意するのはかなり困難です。

「声」の販売も流行中。「誰でも好きな声になれる日」は近いかも?

「学習に使用する音声素材の準備」がある種のハードルである「RVC」ですが、「ITAコーパス」読み上げ音声といった素材や、自力で収録した音声素材をもとに利用する人が続出。ソーシャルVR「VRChat」などでも利用者が現れ始めました。

こうした「RVC需要」を見越してか、「RVC」向けの学習済みボイスモデルの提供も始まっています。ECサイト「BOOTH」では有料・無料問わず様々なボイスモデルが並び始めているほか、「Vket Store」にも動く城のフィオさんによるボイスモデルショップ「声帯ショップ『Voice Cocktail』」がオープンし、「RVC」向けボイスモデルの販売が始まっています。

VTuber業界やソーシャルVRには、ボイスチェンジャーを使用する人が一定数存在し続けてきました。しかし、精度の高い音声変換を行うには、本人の生まれもった声質や発声方法が重要となり、それをクリアしたとしてもボイスチェンジャー特有の「ケロケロ感」は拭えないケースは少なくありません。

「RVC」による音声変換は、従来のボイスチェンジャーにあったハードルや難点を解決し、非常に自然な「なりたい声」を実現します。今後、容姿だけでなく声もデザインしたVTuberやソーシャルVRプレイヤーが現れる日も近いでしょう。AIボイスチェンジャーによって、バーチャルの世界がどのように進化していくか、要注目です。


VR/AR/VTuber専門メディア「Mogura」が今注目するキーワード