メタはAIに嘘をつき、戦略を立てることを教える

ニュース

人間のプレーヤーと交渉し、その動機を推測するボードゲームのプレイを学習させたAIは、企業のチャットボットに応用できるかもしれないとメタは述べている。

Metaは、AIエージェントを訓練し、他のプレーヤーとチャットして自分の戦略を支持するように説得し、そして裏切るというボードゲームをプレイできるようにしました。

Facebook、Instagram、WhatsAppを所有する同社が公開したブログ記事によると、同社のCicero AIは近い将来、自然言語処理(NLP)や戦略的推論などの技術を組み合わせて、より賢い仮想アシスタントを開発するなど、広く応用される可能性があるとしています。

メタ社は、学術誌「サイエンス」の研究論文で、同社のAI「キケロ」が戦略ボードゲーム「ディプロマシー」のオンラインリーグで82人の人間と40試合を行い、1試合以上プレイした参加者の上位10%に入り、人間レベルの性能を達成したと発表しています。

外交は、7人のプレーヤーがヨーロッパのマップの支配権をめぐって互いに対戦するものです。各ターンは、プレイヤーが自分のプランへの支持を互いに交渉することから始まり、同時に自分の動きを実行しようとすることで終了します。他のプレイヤーのサポートがなければ、これらの動きの多くは失敗に終わります。

このゲームでは、相手がハッタリをかけているのか、それともゲームに勝つためにある種の戦略を立てているのかを理解する必要があったため、AIエージェントにとってチャレンジとなった、とMetaは述べています。AIはゲームをしながら、他のプレーヤーと協力するために、あるレベルの共感性を高める必要がありました。

AIエージェントは、年々戦略ゲームに長けてきている。1997年、IBMのソフトウェア「Deep Blue」はチェスの世界チャンピオン、ゲイリー・カスパロフを破り、2016年にはDeepMindのAlphaGoが囲碁のトッププレイヤー、イ・セドルを倒しました。また、Facebookはポーカーで人間を上回れる別のAIエンジンを開発しました。

戦略的推論

Ciceroは、戦略的推論と自然言語処理(NLP)という2つの主要な技術要素で構築されています。戦略的推論エンジンが他のプレイヤーの動きを予測し、その情報を使って独自の戦略を立てるのに対し、自然言語処理エンジンは他のプレイヤーとの会話でメッセージを生成し、その反応を分析して交渉し合意に至ると研究者は説明している。

AIエージェントが適切な会話を生成するために、研究者はインターネット上のテキストで事前に学習した27億パラメータの自然言語生成モデルから始め、webDiplomacy.netの4万以上のゲームにおける人間のプレーヤー間の会話で微調整を行った。

研究者は、「学習データのメッセージに、ゲーム内で計画された動きを自動的に注釈する技術を開発し、推論時に、エージェントとその会話相手に特定の望ましい行動を議論するよう対話生成を制御できるようにしました」と、より詳細なブログ記事を投稿しています。

Meta社は、Ciceroのコードをオープンソース化し、他の研究者がAIエージェントの機能を構築できるようにしています。

また、DiplomacyをコアコンセプトとしたNLPによる人とAIとの連携に関する研究提案を募集するポータルを作成しました。

長期計画

マイクロソフト、グーグル、アマゾンなどの大手テクノロジー企業は、コールセンターから、感情分析を行い、個人に新しいスキルを教えることができるAIエージェントまで、さまざまなビジネスユースケースをサポートする、より賢い独立した仮想アシスタントの開発競争を行っています。Fortune Business Insightsのレポートによると、こうしたアシスタントを含む世界の自然言語処理(NLP)市場は、2022年の264億ドルから2029年には1618億ドルに成長すると予測されています。

Metaの研究者は、外交におけるキケロの成功が、現在利用できる他の仮想アシスタントの能力に勝ることを示唆しているようで、ブログ投稿で、”例えば、現在のAIアシスタントは、天気を伝えるような単純な質問-回答タスクを完了することができます – しかし、もし彼らが新しいスキルを教えるという目標で長期間の会話を保持できるとしたら?” と述べています。

これは、Google Duplex、Amazon Alexa、MicrosoftのXiaoice、AppleのSiriといったツールへの当てつけです。しかし、Ciceroも長期的な会話には向いておらず、その推論は厳密には短期的なものだ。Meta社の研究者がScience誌の論文で述べているように、「戦略的観点から、Ciceroは純粋に現在のターンにおけるプレイヤーの行動という観点から対話について推論を行った。それは、その対話がゲームの長期的な経過の中で他のプレイヤーとの関係にどのような影響を与えるかをモデル化していませんでした。”

プロフィール

プロフィール
コードラボJP

大学卒業後SEに就職、現在は退職しフリーランスとして活動中。
『初心者でも挫折せずに一人でプログラミングを学べる』をモットーに、コードラボJPを開設
お問い合わせ等はcodelabsjp@gmail.comまで

コードラボJPをフォローする
タイトルとURLをコピーしました