[ 画像 ] 美空ひばり VOCALOID:AI™

今、世の中では漠然と「AI=人の仕事を奪い去る脅威」と捉えられがちな現実があります。しかし、ひとたび人間に備わった創作への情熱の延長線上にある「表現」という観点に立って考えたときに、AIは人の心を揺さぶる何かを自発的に生み出すことはできるのでしょうか?

それは難しいことかもしれません。なぜならば、AI単体が膨大に蓄積されたデータを機械的に学習しただけで生まれる成果物を「表現」と呼ぶには、あと一歩というところで及びません。

そんな未完成な表現から人の心を動かす「表現」に到達するため、ヤマハ独自のAI技術に志を持つ人たちが向き合いました。VOCALOID:AI™を通じたヤマハの挑戦は、AIという最新技術を感性を携えた人間が活用することで、過去には実現しえなかった新たな「表現」を世に送り出していくことです。

このたびヤマハは、現在開発中の深層学習技術(ディープラーニング)を使った歌声合成技術『VOCALOID:AI』(ボーカロイド:エーアイ)を用いることで、故人である美空ひばりさんの歌声再現の取り組みを支援しました。
本プロジェクトは、日本放送協会(NHK)主導のもと、多数の協力者を得ることで実現しました。没後30年を迎え、歌謡界のトップを走り続けた絶世のエンターテイナーである美空ひばりさんの新曲ライブを具現化するために、4K・3Dの等身大のホログラム映像でステージ上に本人を出現させ、秋元康さんがプロデュースした新曲を、現代のAI(人工知能)技術を用いて美空ひばりさんの歌声で再現しました。

VOCALOID:AI™

ヤマハは、新曲のボーカルパートおよび曲中のセリフパートを制作する役割を担いました。具体的には、AI技術を用いた当社最新の歌声合成技術『VOCALOID:AI』を用いることで、美空ひばりさん本人の歌声や歌い方、話し声の特徴を、忠実に反映したボーカルパートとセリフパートを作成しました。合成に必要となる学習データには、美空ひばりさん本人の生前の歌や話し声を収録した音源を使用。歌声音源の背景には伴奏音が含まれていましたが、当社の「伴奏音除去技術」を用いて歌声部分のみを抽出することで、質の高い学習データを生成し、高品質な合成を実現しました。
今回使用したいずれの技術にも、昨今急速に進化を遂げているAI技術の一種である深層学習技術(ディープラーニング)を使用しており、これらの最新技術によって、昭和歌謡界を代表する歌手を蘇らせるという挑戦的な取り組みとなりました。

Training of the AI

[ 画像 ] Training of the AI

VOCALOID:AIボーカロイド エーアイ™』および「VOCALOIDボーカロイド™」について

『VOCALOID:AI』は当社が独自に開発した、人工知能技術を搭載した歌声合成技術です。あらかじめ目標となる歌手の歌声を収集し、そこに含まれる音色や歌いまわしなどの特徴を深層学習技術(ディープラーニング)により学習することで、その歌手独特の癖やニュアンスを含んだ歌声を、任意のメロディーと歌詞で作り出すことを可能にします。

当社は2003年に独自の歌声合成技術「VOCALOID」を発表しており、現在ではバーチャルシンガーによる歌声を制作できる技術として広く親しまれています。人工知能技術を使用した『VOCALOID:AI』では特に、音色変化の表現が格段に向上しました。

なお、今回の『VOCALOID:AI』の公表に伴い、「VOCALOID」は当社の歌声合成技術の総称として位置づけられ、『VOCALOID:AI』は、その中でも特に人工知能技術を使用したものとして位置づけられます。

開発者のプロジェクトへの想い

才野:このプロジェクトに参加する以前の私は、世代的に美空ひばりさんのことをほとんど知りませんでした。ですが、今回をきっかけに、ひばりさんの影響力の大きさを認識するようになり、往年のファンの方々の「もう一度会いたい」という気持ちになんとかして応えなければいけないと強く感じるようになりました。

大道:同じく、ファンの方たちの「会いたい」思いに応えたいという思いが沸き起こりました。私たちが研究開発を行う場合、実際にその技術を使う人の顔が見えないことも多いのですが、今回は、かつてないほど具体的に「この人を喜ばせたい!」ということを認識した状態で進めることができました。多くの人たちの「会いたい」思いに最高の形で応えるために、秋元康さんが音楽を作り、われわれが技術開発をする。そこの筋が一本通っていたことは、取り組むにあたっての高いモチベーションにつながりました。実際、プロジェクトに関わった人たち全員がひばりさんの音楽と真剣に向き合っていました。今回の復活作品を見た人たちの反応が、「AIにしてはよくやったね」とか、「AIってすごいね」ではなく、過去に実際のひばりさんの歌を受け取って感動したのと同じように、心を震わせてもらえるものを作りたかったですね。

第一研究開発部 AIグループ 大道竜之介

才野:番組を見た人たちから「AIであることを忘れる瞬間があった」という方がいらっしゃいますが、これはまさに私たちが目指したものでした。「いい曲だな、いい歌詞だな」という感想をいただいたときも、「歌声合成の技術すごい」だけではなく、純粋に音楽作品として楽しんでもらえたことが嬉しかったです。

VOCALOID:AIの特長と、音楽的視点に基づいたAIとの対話

大道:VOCALOID:AIの特長は、「この楽譜の文脈を与えたらどう歌うか」というのを想定して歌ってくれる点です。これは、歌手の実際の歌声をAIが学習すれば、ある程度その人らしい歌声を「自動的に」作り出せるということです。これは、すでに商品化されているVOCALOIDとの大きな違いです。VOCALOIDの場合、最終的には人間であるユーザーが、ユーザーの頭の中にあるイメージを実現するため、歌い方を事細かに指示すると、VOCALOIDがそれに100%従う形で歌います。

才野:しかし、VOCALOID:AIが楽譜の文脈に基づいて歌うとはいえ、「どの時代のひばりさん」「どんなシチュエーションで語るひばりさん」の声を望むかという点には、われわれ人間の意志を込める必要があります。例としては、今回の「あれから」の曲中にあった語りの部分。30年ぶりにステージに上がった美空ひばりさんは、どんな気持ちなのか。きっと込み上げてくるものがあるんじゃないか。言葉を発する前に、観客のみなさんを見渡すのが先なんじゃないか…。そういったことを「音楽的な視点」から深く考察するために、秋元さんとわれわれ二人はもちろん、社内で音楽コンテンツ制作に携わる人、ミュージシャンとして活動している人、PAエンジニアなどと議論しました。

第一研究開発部 AIグループ 才野慶二郎

大道:そこで出たポイントを整理し、AIにどう「リクエスト」し、どう「語らせる」か。語り部分に限らず、歌声を作っていくところでも、AIに向き合う試行錯誤の過程は、言ってみれば「ひばりさんとの対話」です。実は、ひばりさんのAIは、われわれのリクエストを無視することもあるのです。「こう歌って」とお願いしても、「私はこの曲をこういう風には歌いません」と言わんばかりの歌声を返してくることもありました。

才野:同じ音符、同じ歌詞を与えても、AIは何とおりの歌い方も返すことができます。でも今回のプロジェクトでは、プロデューサー側に、「こう歌ってほしい」という意思がある。それをわれわれが咀嚼し、AIにリクエストを出す。

大道:リクエストがうまくいったかどうかは、AIから返ってきた音を聴きながら自分たちの耳で判断します。AIにリクエストを出しながらの音作りとは言え、返ってくる歌声も語りも、元はあくまで純度100%のひばりさんの声のみです。ただ、AIには、時代や企画の意図を理解することはできないため、われわれが、「今回はひばりさんならこの歌をこう歌うだろう」ということをイメージしつつ、「いつの時代のどの曲みたいに歌ってほしい」という形でリクエストを出すのです。そんなAIとのやりとりを、われわれはアナロジー的に「対話」と呼んでいます。このプロセスは、VOCALOID:AIを使った音楽制作は人間による音楽活動だということを顕著に表すものです。つまり今回のアプトプットも、「AIが作る音楽」ではなく、「AIを使った人間の音楽活動」なのです。

才野:AIという単語を聞くと、怖さを感じる人もいるでしょう。実際に、悪意を持った使い方をすれば当然ながら人間への脅威となり得るので。ただしそれは、使う人間次第で恐ろしい事態が起きかねないということであって、AIそのものが脅威ということではない。今回は、VOCALOID:AIのプロジェクトを通じて、AIのポジティブな使い方のひとつを明示できたのかなと思います。

本物のデータでのチャレンジ

大道:今回のプロジェクトが技術的にチャレンジングだった点のひとつは,AIの学習に使う歌声データが現実にある一般的な本番環境で収録・保存されていたものだということです。いわば本物のデータを使ったチャレンジです。普段、われわれが研究で使用するデータは、研究目的の音源収録を行う専用の環境できれいに録音されたものを使うのですが、今回のひばりさんの歌声データは、録音された時代がバラバラ、もちろん機材もバラバラ、アナログ機材によって収録された音源も多く、それぞれのデータに特有の歪みや劣化もあったので、学習データとして使う前にいくつかの信号処理技術による前処理をかけて、データの性質を整えました。そしてさらに難しかったのは伴奏音の問題です。ひばりさんはレコーディングの際にヘッドフォンを使わず、まるでライブステージに上がっているかのように生伴奏と一緒に歌われていたそうで、ボーカルトラックに伴奏の音が、かなり大きく混入していました。

才野:研究環境で収録されたデータの学習を対象に設計されたAIでは、美空ひばりさんの歌声と伴奏を区別して認識することができません。そのため、歌声の後ろに伴奏音が入っている状態のままAIが学習すると、われわれのリクエストに対して返ってくる音の中に、ひばりさんの歌声以外に伴奏のような音も混じった状態で出てきてしまったこともありました。

大道:幸いヤマハの社内には伴奏音を消す技術があります。ちょうど私の隣席の同僚が研究していたこの技術と、われわれが現行のVOCALOIDを開発する過程で培った歌声特有の信号処理技術を組み合わせることで、歌声の重要な成分をなるべく傷つけずに抽出する仕組みを実現できました。

才野:単に伴奏音を消してしまえばそれ良いということではないのです。実際、楽曲の中から所望の成分のみを抜き出すような「音源分離」の研究自体はポピュラーなので、取り組んでいる機関も少なくありません。でも、音源分離も歌声合成も高いレベルで取り組めている研究機関はそれほどないと思います。つまりここは音に関する技術を総合的に有するヤマハならではで、歌声合成に最適化した伴奏抑圧技術を新規に開発できたことで、クリアすることができました。

今後の展望と想い

才野: AIの組み方次第では、全自動で「それらしい」音楽を作ってくれるという価値も、ありえるとは思います。例えばスーパーマーケットのような空間で、買い物を邪魔されることなく心地よく聞き流す音楽を、AIを活用することでより簡単に作れるという価値もあるでしょう。ですが、われわれとしては、完全自動生成ではなく、人の意志が込められた音楽制作をできる環境を提供したいと考えています。これはすなわち人間の意志が入った「作品」作りを支援するということです。

大道:同じく、自分が伝えたいものを作ったり、人の思いを叶えるために何かを作るという方向へ向かいたいです。そこでのわれわれの仕事は、AIと人間とのコミュニケーションを設計するということかと思います。今回のプロジェクトでは、秋元さんがプロデューサー、すなわち音楽制作に意志を持っている人で、プロデューサーの意思とひばりさんの音楽とを理解してAIと対話することがわれわれの役割でした。この「プロデューサー」という立ち位置を、より多くの一般の人たちが楽しめるように、ひいてはAIを使うことでより感覚的に音楽を制作できるために、ソフトウェアやサービスを開発し、提供していくことを目指したいです。そうすることで、われわれのような開発者がその場にいなくとも、プロデューサーたるユーザーと、VOCALOID:AIが直接対話し、音楽を作れる状況が生まれます。

才野:VOCALOID:AIが目指すところは、「意志を込めて音楽を作る」という点においては現在商品化されているVOCALOIDと同じです。ただ、VOCALOIDはユーザーの意志をすべて反映できるのが醍醐味である一方、いい作品に仕上げていくには作り込みが必要となる側面はあります。VOCALOID:AIでは、このハードルをもっと下げたいです。より直感的なディレクションでも制作できるように、元の歌手の個性を生かし、抽象的な思いのやりとりが可能になることで、音楽で自己表現したい人のお役に立てればうれしいです。

  • *「VOCALOID」(ボーカロイド)「ボカロ」『VOCALOID:AI』(ボーカロイド:エーアイ)は、当社の商標もしくは登録商標です。
  • *その他、文中の商品名、社名等は当社や各社の商標または登録商標です。