
サンドボックスゲームや街づくりゲーム、或いはRPGで、自分以外の住民が勝手に動くとしたら?
その「動く」とは、単に歩き回るという意味ではありません。人間らしい行動、即ち衣食住にまつわる動作や趣味、イベントに打ち込む姿など、まさに文明人としての生活をプログラマーの意図とは無関係に再現するとしたら?
ゲーム内のキャラが自由意思で行動する、ということは既に実現しているといいます。この記事ではCEDEC 2023の基調講演「AIはゲームをどのように変えるのか」から、AIの進化とそれにまつわる「ゲーム開発への影響」について極めて簡単ながらレポートしたいと思います。登壇者はPreferred Networks 代表取締役 最高研究責任者の岡野原大輔氏です。
誰でも手軽に利用できるようになったAIサービス

最近では、AIそのものが身近になりました。
ChatGPTの躍進がその例ですが、同サービスは公開2ヶ月で月間利用者数1億人、毎月16億人が訪問しています。

「これまでもAIは各分野で利用されてきましたが、ChatGPTのように一般の方々が大規模に利用するというのはここ1年ほどの現象です」
ChatGPTを始めとする近年のAIチャットサービスでは、プログラムではなく日本語や英語のような自然言語を使って指示を出すことができます。これにより、専門家でも思いつかない使い方を一般の人々がするようになり、様々なイノベーションが起こっています。

なぜ、AIサービスは誰でも手軽に利用できるようになったのか。その要因には「大量のデータで予め学習している」「どんな指示でも柔軟に受け付けられる」「その場で学習する能力を備えている」「記憶の仕組みが大きく改善された」ということが挙げられます。「どんな指示でも柔軟に」というのは、AIへの指示は文字でも画像でも構わないという意味です。
その上で、「今年後半から来年にかけて『マルチモーダル基盤モデル」の時代に入る」と岡野原氏は語ります。これは要するに、テキストや画像や音声といった全く種類の異なるデータを一括して取り扱うという仕組み。岡野原氏曰く、これは数年前なら「素人の考え」と見なされていたとか。
「大規模言語モデル」の発達
次に岡野原氏が解説するのは「大規模言語モデル」。
言語モデルは、単語列を「確率」によって予測し生成する仕組み。生成した単語の後にどの単語が来るのか、それを確率で判断するというわけです。

「私は毎日走ります」は至って自然な日本語で、故に高確率。一方で「は毎朝ます私走り」はまず見かけない不自然過ぎる日本語で、当然低確率。そのような生成と淘汰を繰り返し、なおかつそれを大規模化したものが「大規模言語モデル」です。
この大規模言語モデルに関する技術的解説も講演内で行われました。詳細は非常に多岐に渡るためこの記事では割愛しますが、大規模言語モデルは短期的記憶と長期的記憶、そこから端を発する「概念の共有化」、そして何と空間や時間の認識もできるようになっているとのこと。
「概念の共有化」とは、たとえば日本語の「時間」を英語の「time」に翻訳する際、両者の概念を共有する空間を自動的に作るという流れを指します。
バレンタインパーティーを開く村人
大規模言語モデルを用いて、このような実験も行われています。Googleとスタンフォード大学が共同で実施した「Generative Agents : Interactive Simulacra of Human Behavior」です。