[ サムネイル ] 音楽の未来を構想する「変身」技術 #2

音楽の未来を構想する「変身」技術

#2 “あの人”の声で、自分の歌を

2023年11月15日

憧れの「あの人」の声で歌えたら、どんなに楽しいだろう――誰もが、好きなアーティストの声で歌ってみたいと夢見たことがあるのではなかろうか。ヤマハが研究するAI歌声変換技術「TransVox®(トランスヴォックス)」があれば、そんな夢が実現する日も遠くないだろう。

音楽の未来を構想する「変身」技術(全3回)

#1 ギターの新しい価値を求めて

マイクに吹き込んだ声を、特定の人の歌声に変換してくれるTransVox。この魔法のような技術には、いままでにない体験で使い手のクリエーティビティーを刺激しようとたくらむ、ヤマハの遊びゴコロが宿っている。

長年の研究から生まれた変声技術

ヤマハは、20年以上にわたり歌声合成技術の研究開発を行ってきた。代表的な活用例としては、音楽制作に使用される「VOCALOID™(ボーカロイド)」があるが、TransVoxはボーカロイドの研究から派生して生まれた技術である。開発を担当する才野慶二郎によると、「研究の中から『歌声を瞬時に分析する技術』が生まれ、それを音声合成技術と組み合わせたら面白いものができるのではないかと考えたのがきっかけだった」という。

[ サムネイル ] 研究開発統括部 才野慶二郎
研究開発統括部 才野慶二郎

一般的なボイスチェンジャーは入力された音声に信号処理をかけて効果を与えるのに対し、TransVoxは全く違う仕組みで声を「変身」させる。まず、歌っている人の声を瞬時に分析し、特有の声質を排除して発音や抑揚などの「歌唱内容」だけを抽出。さらにその「歌唱内容」を、AIが事前に学習した特定の人の声質で再現するのだ。「声を加工するのではなく、声質の情報を取り除き、別人の特性を乗せて新たに音声を合成する。この二つを瞬時に行うのがTransVoxの特徴です」(才野)。

才野は、大学時代から現在に至るまで、15年以上にわたり音声合成の研究に携わってきた。きっかけは研究室選択の際、音声合成の研究室が行っていたデモンストレーションを目にしたことだった。「『こんにちは』と文字を打ち込むと、誰も話していないのに機械が勝手に『こんにちは』と読み上げてくれる。人間と機械が対話するために欠かせない技術が開発されていることに、心が躍りました」(才野)。この時は、いつか自分がTransVoxなどの歌声合成技術を開発することになるとは想像もしていなかった。

マイクが人々のこころを握るまで

無限の可能性を秘めるTransVoxに最初のターニングポイントが訪れたのは2022年のこと。「社内でTransVoxを紹介した時に、マーケティング部門のメンバーが興味を持ち、面白いサービスにできないかと思考を巡らせてくれました。そこから、カラオケで歌う時に『別人に変身できる』マイクをつくろうというアイデアが生まれたんです」(才野)。話はトントン拍子に進み、音楽グループ「Every Little Thing」とのコラボレーションも決定。ユーザーの声をボーカルの持田香織さんの声質に変換する「なりきりマイク®」の開発が始まった。

まだ実験段階だったTransVoxを、サービスとして完成させるまでには、非常に多くのハードルがあった。まずは音の遅延の問題。当初は、声を入れたら数秒後に変換された声が返ってくるレベルで、「ラグが大きく、とてもカラオケで使える状態ではありませんでした。遅延をなくす工夫はするのですが、音質や安定性を下げずに実現することが技術的に難しい。ラグを短くしつつも持田さんの声に聞こえるよう質を確保することにとても苦労しました」(才野)。

もうひとつは、歌声以外の音への対応だ。「カラオケ店はとにかく音が多いんです。BGMや話し声など、さまざまな音が飛び交っています」(才野)。歌っている人とスピーカーの位置関係も、場所や状況によって変わる。普段、実験を行っているスタジオや防音室のように、余分な音が排除された空間とはまるで違う。そんな場所で、マイクを正常に機能させるのは非常に難しかったという。

才野は当時、チームメンバーと共にカラオケ店に何度も足を運び、調整を繰り返した。「普段、自分たちがいかに理想的な条件の下で研究をしていたかを思い知らされましたね」(才野)。研究開発部門のメンバーは皆、実環境との乖離(かいり)を念頭に置きながら研究を重ねている。才野も「実環境でうまくやることの大変さを頭では理解していたつもりでしたが、強く実感したのはこのTransVoxの開発が初めてでした」と振り返る。

数々の課題を乗り越え、無事に公開された「なりきりマイク」。メディアやSNSでも注目を集め、大きな反響を呼んだ。

「ELT 伊藤 一朗いっくんTV」動画での紹介

声を変えても、変わらない想い

試行錯誤を繰り返したなりきりマイクの開発だが、才野らがその経験から得たものはなんだったのだろう。「ユーザー視点をより意識して開発を進められるようになったことですね。技術がいくら面白くても、実際に使って楽しくなければ意味がありません。どうやったら、自分が持田さんになりきっている感覚を持てるのか。それだけは数値ではなく、実際に歌ってみながら調整するしかありませんでした」(才野)。

また、楽しみを持続させるためには、人間のクリエーティビティーをくすぐる仕掛けも重要だという。「誤解をされることも多いですが、なりきりマイクは歌がうまく歌えるようになるマイクでありません」(才野)。声のトーンや、ピッチの動きがそのまま反映されるため、歌い方次第でどんどん持田さんに似せることができ、そこに、人間がクリエーティビティーを発揮する余地がある。

別人に「なる」のではなく「なりきる」ことを醍醐味とする体験。そこにはヤマハのAI技術に対する価値観が色濃く映し出されている。「AIが全部やってしまって、そこに人間が介在しないなら、表現のしがいがないですよね。人間の持つ創造力をサポートするのが、AI技術のあるべき姿だと私たちは考えます」(才野)。

それでは、才野らはTransVoxの未来をどのように描いているのだろうか。人間のクリエーティビティーを刺激し、いままでにない体験を実現したTransVox。だが、まだまだ序章にすぎないと才野は言う。「もっと歌唱の表現を豊かにしていきたいし、技術を応用する方法もたくさんあると思っています」。

実際、2023年1月には、「みらい体験」をテーマにしたYOXO FESTIVALに参画し、会場でプロの声優になりきる体験ブースを設置した。通常の会話の声がプロの声優による本物のアニメの場面のような感情のこもった声に変換され、誰もが声優になったような気分を味わえる。多くの参加者がTransVoxという技術に驚き、なりきり体験で笑顔になるのを見て、才野は確信した。「ヤマハとしてはやはり歌声にこだわって開発していますが、TransVoxには歌以外にもあらゆる楽しみ方の可能性がある」と。

人の声をリアルタイムで全く別人の声質に変換させるTransVoxと、未利用材からギターの新しい価値を探るアップサイクリングギタープロジェクト。どちらもあるものを別のものへと「変身」させる技術だが、その奥には共通するある想いが秘められている。次回はいよいよ、二つの物語を貫く大切な「Key」に迫ります。お楽しみに。

(取材:2023年7月)

前の記事を見る #1 ギターの新しい価値を求めて
次の記事を見る #3 新しい時代の歌と楽器をつくる、技術の「種」

才野慶二郎|KEIJIRO SAINO

研究開発統括部所属。高校時代にMIDIとDTMの世界に触れたことがきっかけで、音を理論的に扱うことに興味を持ち、大学時代から音声合成の研究をスタート。ヤマハのインターンシップでVOCALOIDの実習に参加し、入社後も音声合成の研究開発を続けている。

※所属は取材当時のもの

音楽の未来を構想する「変身」技術(全3回)

#1 ギターの新しい価値を求めて

#2 “あの人”の声で、自分の歌を

#3 新しい時代の歌と楽器をつくる、技術の「種」