MIT、ボードゲームを通じAIの質問能力を向上
- •MITの研究チームは「Collaborative Battleship」を用いて、AIエージェントの自然言語による質問能力を改善した。
- •Llama 4 Scoutはモンテカルロ推論を活用し、GPT-5のコストの1%で82%の勝率を達成した。
- •質問をPythonコードに変換する手法により、検証タスクにおけるモデルの精度が平均15%向上した。
MIT CSAILおよびハーバード大学の研究者は、「Collaborative Battleship」を評価環境に用いることで、言語モデルの情報収集能力を向上させる手法を開発した。研究チームは40人の人間から収集した質問と回答データに基づき、「BattleshipQA」データセットを作成した。GPT-5のような大規模モデルは人間を上回る手数でゲームを完了できる一方、小規模モデルは適切な質問戦略に苦戦する傾向がある。これに対し、研究チームはモンテカルロ推論を採用し、味方からの回答に基づいてゲーム状況の確率を推定させた。その結果、Llama 4 Scoutの勝率は8%から82%に劇的に向上し、GPT-5よりも効率的に、かつGPT-5のコストの約1%という低コストで動作した。
さらに、研究チームは「auto-formalization」という手法を導入し、自然言語による質問をPythonコードに変換して解を検証させた。これにより、モデルはゲーム盤上の特定領域を明示的に探索できるようになり、艦船配置の検証精度が平均15%向上した。例えばGPT-4o-miniは約30%、Claude 4 Opusは約8パーセントポイントの性能向上を達成した。これらの成果は、AIエージェントに「world model」へのアクセス権を与えることで、より有益な質問を生成し、データを効率的に収集できることを示唆している。
研究チームは同様の手法を「Guess Who?」などの他の情報収集タスクにも適用した。Llama 4 Scoutは成功率を30%から72%超へ、GPT-4oは62%から90%へと改善させた。しかし、熟練した人間を上回ることは依然として困難であり、極めて複雑なクエリへの対応には課題が残る。ガブリエル・グランド(Gabriel Grand)およびジェイコブ・アンドレアス(Jacob Andreas)が率いるチームは、4月に開催された国際学習表現会議(ICLR)にて本研究を発表し、分子構造の特定など科学的発見への応用の可能性を提示した。