contents 1
AI & Cloud Service Technology Report03 360 Reality Audio 音楽体験に、 ソニーのAI・クラウド技術。
Outline
360 Reality Audioは、ソニーの空間音響技術を用いて臨場感溢れる音楽体験を可能にするサービスです。人間の音の聞こえ方には個性があり(聴感特性)、耳や頭の形によって変化します。360 Reality Audioはアプリで撮影した耳の写真を分析し、利用者に最適な音響設定を生成。全方位から音が降りそそぐように聴こえることで、まるでライブ会場にいるかのような没入感を体験することができます。アーティストは、楽曲制作の過程でボーカル、コーラス、楽器などの音源に位置情報を付与し、球状の空間内に配置することが可能です。自由な位置で音を鳴らすことで、理想的な音響環境で楽曲を提供できるようになりました。
Project Members
株式会社ソニーリサーチ
研究開発(R&D)
福田
AIエンジニアとして、
個人の聴感特性の
解析や最適化技術の開発を担当。
ソニー株式会社
ビデオ・サウンド事業
クラウドサービスエンジニア
佐藤
360 Reality Audioの
システム構築を担当。
※ 所属・仕事内容は取材当時のものです。
AI技術とクラウド技術で実現する
個人に最適な音楽体験の提供
耳の写真から最適な音響設定を導く360 Reality Audioですが、
どのような仕組みで実現しているのでしょうか?
どのような仕組みで実現しているのでしょうか?
福田:空間オーディオとして立体的な音響体験を実現するには、聴いている方の聴感特性に最適化した状態で再生することがとても重要です。というのは耳や頭の形によって、発生源から鼓膜へ届くまでに音が変化するからです。この「音が鼓膜へ伝わるまでの変化」は「HRTF(Head Related Transfer Function)」という数値で示されます。通常、HRTFを導き出すには耳の中にマイクを設置し、スピーカーから流した信号と録音した信号の違いを比較するのですが、一人ひとりにこのような大がかりな測定を行うことはできません。そのため、HRTFによる音響体験の最適化は研究レベルでは知られていましたが、実用化は難しいとされていました。そこで開発したのが、AIによる個人最適化アルゴリズムです。360 Reality Audioでは「耳の写真から耳の構造の推定」と「耳の構造から音響特性の推定」が行われています。
まずユーザーがスマートフォンの専用アプリから撮影した耳の写真から、耳の形の膨大なデータを学習したAIが耳の形状を3次元データとして推定します。そして、今度は耳の構造から、耳の形と音響特性の組み合わせの特性を学習したAIがHRTFを推定し、その値をもとに最適な音場を設定するという仕組みです。
まずユーザーがスマートフォンの専用アプリから撮影した耳の写真から、耳の形の膨大なデータを学習したAIが耳の形状を3次元データとして推定します。そして、今度は耳の構造から、耳の形と音響特性の組み合わせの特性を学習したAIがHRTFを推定し、その値をもとに最適な音場を設定するという仕組みです。
AIでHRTFを導き出す過程でクラウドサービスが使われていますが、
どのような理由からでしょうか?
どのような理由からでしょうか?
佐藤:当初は処理の負荷が大きかったことと、AIモデルを継続的にアップデートしていくためにクラウドで処理することになりました。クラウドサービスはAWSを利用していて、耳写真のデータがS3に置かれると、AIモデルが動作して3次元データを生成し、HRTFを導き出したら再度スマートフォンアプリにデータを返すという仕組みです。
低コストで顧客体験を実現するために
クラウドに載せるものを
極限まで削る
開発までの経緯を教えてください。
福田:もともと、ソニーにはプリセットの聴感特性を用いて、ヘッドホンで手軽に空間音響体験ができる「VPT (Virtualphones Technology)」という技術がありました。それを個人に最適な形にカスタマイズするという発想から開発がスタートしたのが360 Reality Audioです。
開発が始まった2017年当時はディープラーニングの流行の真っ只中。しかし、クラウドを用いたAIのオーディオ製品への組み込みはまだ手を付けていない分野でした。そのため、AIモデルをどう動かすかということから模索していきました。AIモデルに関してある程度形になった後も、ヘッドホンチームの協力やアプリの開発、アルゴリズムを実行するためのクラウドサーバーの技術などが必要で、どんどん輪が広がっていったんです。
開発が始まった2017年当時はディープラーニングの流行の真っ只中。しかし、クラウドを用いたAIのオーディオ製品への組み込みはまだ手を付けていない分野でした。そのため、AIモデルをどう動かすかということから模索していきました。AIモデルに関してある程度形になった後も、ヘッドホンチームの協力やアプリの開発、アルゴリズムを実行するためのクラウドサーバーの技術などが必要で、どんどん輪が広がっていったんです。
開発を進める中で苦労した点はなんでしょうか?
佐藤:クラウドサービスのコスト管理ですね。360 Reality Audioにはサーバーが欠かせませんが、サーバーを動かし続けると当然コストが膨れ上がります。しかし、360 Reality Audioの個人最適化は無償で提供しているサービスなので、あまり大きなコストをかけるのは望ましくありません。
最低限のサーバー構成で、UX(ユーザー体験)チームから要望された反応速度を満たしながらも、コストを最小限に抑えるよう工夫が必要になりました。
最低限のサーバー構成で、UX(ユーザー体験)チームから要望された反応速度を満たしながらも、コストを最小限に抑えるよう工夫が必要になりました。
福田:そこで、AIに学習させる内容をどこまで削って良いのかを突き詰めていきました。音には、機械が検知できても人間には感知できない領域があります。例えば、ものすごく高い周波数の音は人間には聞き取れません。ですから、高すぎる周波数に関連したHRTFの情報を削減しても聴感上は差がないんです。そのような人間の聴覚特性の傾向を利用した調整を緻密に行い、アルゴリズムに関わる計算や容量のコストを圧縮していきました。
佐藤:そのおかげで処理は軽量になったので、コストを考えるとAWS Lambdaで実行したかったのですが、処理を実行するためのライブラリがストレージに入り切らないという問題もありました。
Lambdaは今でこそストレージ上限が増え、すべてのライブラリを入れられるようになりましたが、当時はストレージの上限が厳しく、ライブラリの一部をS3に置き、Lambdaの起動時にS3からファイルを取得して実行するという少し強引な仕組みで実行していました。
Lambdaは今でこそストレージ上限が増え、すべてのライブラリを入れられるようになりましたが、当時はストレージの上限が厳しく、ライブラリの一部をS3に置き、Lambdaの起動時にS3からファイルを取得して実行するという少し強引な仕組みで実行していました。
ソニーグループの幅広さを活かして
全員が納得するクオリティーへ
360 Reality Audioは業界でも革新的なサービスですが、
どのようにクオリティーを担保したのでしょうか?
どのようにクオリティーを担保したのでしょうか?
福田:スタジオやアーティスト、一般ユーザーを対象に、何度もテストしてもらいました。エンジニアとしては納得していたつもりでも、ユーザーテストからは「音の聴こえ方をもっと変えてほしい」「もう少し低音がほしい」といった声が結構上がってきたんです。その度にアルゴリズムを調整し、何度もテストを繰り返して細かい部分まで詰めていきました。
そんな微調整を何度も繰り返せたのは、ソニーグループ内に株式会社ソニー・ミュージックソリューションズがあって、スタジオと直にやりとりできたからこそですね。
そんな微調整を何度も繰り返せたのは、ソニーグループ内に株式会社ソニー・ミュージックソリューションズがあって、スタジオと直にやりとりできたからこそですね。
開発段階やリリース後の世間のリアクションで、
特に印象的だったことはなんでしょうか?
特に印象的だったことはなんでしょうか?
福田:360 Reality Audioの特徴である「自分の下からも音が聴こえる」という体験や、空間音響の再現度の高さは非常に新鮮だったようで、ユーザーからは驚きの声が多かったです。CES®︎やIFAなどのイベントでも好評でしたね。CESでは、来場者にスピーカーで音楽を聴いてもらった後にHRTFを測定し、ヘッドホンで360 Reality Audioを体験してもらいました。その結果、「これはスピーカーじゃないのか!?」といった反応を数多くいただきました。ヘッドホンをつけたり外したりしながら、目の前でびっくりされる様子を見られたのはとても嬉しかったですね。
佐藤:リリース後の話ですが、360 Reality Audioの対応楽曲をリリースするアーティストが増えてきているのは素直に嬉しいですね。特に私が好きなアーティストの楽曲が対応した時は、とても身近に感じられました。ここは課題でもありますが、楽曲を360 Reality Audioに対応させるには、ボーカルや楽器の音を球状の仮想空間に配置する作業が必要なので、楽曲制作側にかかる負荷が大きくなります。それでも360 Reality Audioの対応楽曲を制作いただけるのは、アーティストにとっても魅力的なものに映っているからではないでしょうか。
個人に最適な音楽体験を
当たり前の選択肢に
360 Reality Audioは今後どのような
アップデートを予定していますか?
アップデートを予定していますか?
福田:より個人に最適化した音楽体験を提供できるようにしていきたいですね。継続的に研究しているのは、精度を高めることです。360 Reality Audioで写真から推定されるHRTFは、実際の測定に近づけるためにまだまだ改善できる余地があります。今後はさらに学習データを増やしたり、より聴感特性を反映できるようにアルゴリズムをアップデートしたりすることで、もっとユーザー一人ひとりに最適化された音楽体験を実現したいです。
佐藤:アーティストやサウンドクリエイターにとっても、360 Reality Audioの対応楽曲がよりつくりやすくなるような仕組みは必要だと考えています。360 Reality Audioは、もともとソニーの研究開発(R&D)が持っている空間音響技術にAIやクラウドといった技術を絡めて仕組みを構築し、さらにハードウェア製品の部署や音楽関連のグループ会社、アーティストまで関わって一つのサービスとしての提供が実現しました。システムからコンテンツまで一つの会社で提供できるのはソニーの大きな強みだと思います。この環境を活かして、さまざまな立場からの意見を取り入れて進化していきたいですね。
今後、360 Reality Audioには
どのような広がりを期待していますか?
どのような広がりを期待していますか?
佐藤:360 Reality Audioの対応楽曲が増えるにしたがって、音楽体験の選択肢としてメジャーなものになってくれたら嬉しいですね。
さらに、360 Reality Audioを活用したリアルタイム配信「360 Reality Audio Live」にもソニーとしては取り組んでいます。オンライン配信を楽しむカルチャーは定着していますが、360 Reality Audioを用いた配信はまだ始まったばかりです。360 Reality Audioはライブの音響もヘッドホンで再現できるので、会場ごとに異なる“一番音がいい席”の再現も可能です。ライブ会場に足を運べなかった際にも、360 Reality Audioによって臨場感の高いライブ体験を提供し、より多くの人にライブの良さを味わってもらえたらいいなと思います。
さらに、360 Reality Audioを活用したリアルタイム配信「360 Reality Audio Live」にもソニーとしては取り組んでいます。オンライン配信を楽しむカルチャーは定着していますが、360 Reality Audioを用いた配信はまだ始まったばかりです。360 Reality Audioはライブの音響もヘッドホンで再現できるので、会場ごとに異なる“一番音がいい席”の再現も可能です。ライブ会場に足を運べなかった際にも、360 Reality Audioによって臨場感の高いライブ体験を提供し、より多くの人にライブの良さを味わってもらえたらいいなと思います。