世界65カ国で活用―ビデオゲームへの導入も広がる音声合成ソリューション「ReadSpeaker」の魅力とは

読み上げる

突然ですが問題です。

Q１.入力テキスト音声化技術「Text to Speech」の代表的なものとして挙げられる、世界中で導入が進むHOYA株式会社の音声合成ソリューションといえば？

ReadSpeaker
棒読みちゃん
SofTalk
VOICEROID

正解は......1の「ReadSpeaker」です！

では、次の問題です。

Q２.HOYA社が提供する「ReadSpeaker」はどのような場面で活用されている？（複数回答）

新幹線の車内や停車駅構内で流れる案内音声
複数の自治体における防災・放送システム
ゲーム内音声
テレビやスマートフォンなどの身近な家電製品・モバイル端末

正解は……「1、2、3、4全て」です！

電車の駅の構内放送、テレビ番組のナレーション、家電から聞こえてくる声……「ReadSpeaker（リードスピーカー）」という製品名を知らずとも、私たちはその製品が生み出した「声」を日常的に耳にしています。

「ReadSpeaker」は、HOYA株式会社（以下：HOYA社）が自社で一から開発を続ける音声合成技術（TTS=Text to Speech）です。国内だけで1,700社以上の導入実績があり、導入企業には「JR東日本」「電通」「SHARP」「京都大学」「東京都」など、日本を代表する企業や行政、教育機関などが名を連ねています。

なぜ、ここまで幅広く支持されるのかは、その「声」を聞けばすぐに理解できるでしょう。圧倒的な「肉声感」と「明瞭感」に加え、必要であれば「喜び」「悲しみ」「怒り」などの繊細な感情をも表現できる完成度。

人の声なのか、音声合成なのかさえ意識させないそのクオリティは、日常生活のあらゆるところから聞こえてきます。

「ReadSpeaker」は30ヶ国語以上の言語に対応し（2022年3月現在）、グローバルに展開中です。AIを使用した音声技術は、海外の方が進んでいると言われていますが、そこでも大きなシェアを獲得できるのが「ReadSpeaker」なのです。

その技術の根幹にあるのは、「AI音声合成」です。

ReadSpeakerの魅力を支えるAI音声合成と＜オリジナルボイス＞

「AI音声合成」では、最先端の機械学習技術「ディープラーニング」の導入で全体的な品質が向上し、「感情表現」はより繊細で自然な人間の発声にかなり近くなりました。

従来の技術では「表現」が難しかった「あいづち」「語尾」「言い回し」などの、感情をあらわす、細かいニュアンスの表現力が大幅に向上しました。

一般的に「ディープラーニング」の使用には、高いスペックのサーバーが必要とされてきましたが、HOYA社の高い技術力と開発力は、一般的に普及している端末での動作を可能にしました。

ReadSpeakerは、若い女性から年配の男性まで複数の「話者」によるさまざまな声色が用意されています。

しかし、そこに留まらない最先進の技術が「ReadSpeaker＜オリジナルボイス＞」、実在する人物（声優や俳優、著名人など）の声から「オリジナル」の声を作成できるソリューションです。

今までは、音声の収録には数十時間、時には100時間を超える工数が必要でした。そのうえ、新たなコンテンツを追加する際には、その都度の収録が必要とされました。

ReadSpeakerの「オリジナルボイス」は、十数時間分程度の収録ボイスでその声の特徴を活かした音声を合成でき、"喜"、"怒"、"楽"、3つの感情を自在に持たせられます。ハイエンドマシンでなくとも、このようなAI音声合成を製作・活用できるのも魅力です。

ReadSpeakerのAI音声合成の活用先にはもちろんビデオゲームも含まれており、さまざまなゲームで使用されています。一例として、プレーヤーが任意に設定した名前でキャラクターが呼びかけてくれれば没入感が増しますし、AIと併用すれば会話も行えます。

音声を用意するにあたって声優やナレーター、および収録のためのスタジオを確保する必要がないため、工数やコストの削減にも大きく寄与します。

工数が削減されれば、その日に行われたデイゲームの結果に言及する音声をスポーツゲームに即日反映させるというような手法が可能になります。また、コストの削減は、個人や少規模な開発体制でも、音声による演出・表現を行いやすくなるというメリットがあります。

ReadSpeakerの最新導入事例『QuizKnock STADIUM』

直近におけるReadSpeaker製品の導入事例の一つには、株式会社コナミアミューズメントがリリースしたアーケードゲーム『QuizKnock STADIUM』が挙げられます。

同作は、東大クイズ王・伊沢拓司氏が率いる知識集団「QuizKnock」協力の下で開発され、バーチャル空間でのコミュニケーションや早押しクイズを楽しむ新感覚のクイズゲームで、2022年3月10日（木）から稼働が開始されました。

出題の中にはQuizKnockのメンバーが作成した問題も含まれているほか、各問題を伊沢氏が読み上げてくれるのも大きな魅力です。それでは、ここで最後の問題です。

Q３.アーケード用クイズゲーム『QuizKnock STADIUM』における、東大クイズ王・伊沢拓司氏の出題音声はどのように作られている？
1.伊沢氏をスタジオに招いて収録
2.AIを用いた音声合成
3.プログラミングで再現
4.声マネ声優を起用して収録

正解は、２の「AIを用いた音声合成」です！

株式会社コナミアミューズメントは、『QuizKnock STADIUM』の開発にあたりReadSpeakerのオリジナルボイスを採用しました。また、実装にあたっては「SpeechEngine SDK」を活用しました。

同社は開発当初から「オンラインアップデートによる継続的な問題の追加」、「東大クイズ王・伊沢拓司氏による問題の読み上げ」を決定していました。多忙を極める伊沢氏の限られた収録スケジュールでどのようにそれを実現させるかという課題を解決したのが、工数とコストを大幅に短縮できるTTS（音声合成技術）です。

最初は音声合成技術への知見を深めるところからのスタートでしたが、幅広い分野・場所で日常的に用いられているReadSpeakerのソリューションへの信頼と、オリジナルボイスの再現性の高さが導入の決め手となりました。

導入直後は時事問題によく見られる新語や初登場の人名などを読み間違えることもありましたが、そうした語をリストアップして都度辞書登録を行い解決に至ったとのことです。

全国のクイズプレイヤーたちが『QuizKnock STADIUM』をプレイすることで、ReadSpeakerの優れたソリューションはより身近なものとなるでしょう。

QuizKnock STADIUM公式WEBサイト