2024年12月10日、シーエーシー(CAC)は、音声から3Dキャラクターの表情アニメーションを自動生成する「DeepEmo」のデモエディタの提供を開始しました。

Unityのプロジェクトとして提供されるこのデモエディタでは、AIが台詞音声を解析して感情データを出力し、その感情データをもとに3Dキャラクターの表情アニメーションを自動生成します。
DeepEmoは、平常、怒り、恐怖、嫌悪、喜び、悲嘆、信頼、興味、驚きの9つの感情を推定するアルゴリズム。収録した台詞音声を解析し、0.32秒ごとに変化する感情値を生成します。
これまでは音声データから解析した感情値をCSVファイルとして提供してきたものの、そのデータを解釈して表情を生成するシステムの構築を個社ごとに行わなければならないことに対し、ハードルが高いという指摘があったとのこと。こういった課題を解決し、より効率的な開発環境を実現するため、本デモエディタが開発されました。

Unityのエディタ上では、感情の強度パラメーターの微調整や、アニメーション変化の開始タイミング調整など、より細やかな表現の制御が可能です。9種類の感情に対応するブレンドシェイプをプリセットとして登録することで、台詞の感情に合わせたリップシンク付きの自然な表情アニメーションを生成します。

CACによると、ある大手ゲーム開発企業での導入事例では、従来アニメーター1人日あたり2分程度の作業量だった表情アニメーション制作において、約95%の工数削減を実現。1,000分の台詞に対する表情付けの工数が、従来の500人日から25人日程度まで大幅に削減されました。
今後CACは、複数の3D制作プラットフォームへの対応や、既存パイプラインとの連携、一括表情適用機能の実装、VRM形式への対応など、開発現場の多様なニーズに応えていく予定です。また、ゲーム制作に限らず、メタバースやVTuber等、3Dキャラクターを活用したデジタルコンテンツ制作全般へのサービス展開も視野に入れているとのことです。