エージェントシミュレーション用モデル「Qwen-AgentWorld」発表
HuggingFace
2026年6月25日 (木)
- •エージェント環境シミュレーション向けモデル「Qwen-AgentWorld-35B-A3B」および「Qwen-AgentWorld-397B-A17B」が公開された。
- •1000万件の相互作用軌跡と、CPT、SFT、強化学習(RL)の3段階のトレーニングパイプラインを採用している。
- •新ベンチマーク「AgentWorldBench」において、9つの主要タスクで既存の最先端モデルを上回る性能を記録した。
研究者らは、エージェント環境のシミュレーションと推論能力を強化するために設計された言語ベースの「World model(世界モデル)」フレームワークであるQwen-AgentWorldを発表した。今回公開されたのはQwen-AgentWorld-35B-A3BとQwen-AgentWorld-397B-A17Bの2つの主要バージョンである。これらのモデルは、「Chain-of-thought(思考の連鎖:回答前に段階的な推論過程を出力する手法)」技術を用いて、7つの異なる領域でエージェント環境をシミュレートする。
開発パイプラインでは1000万件を超える環境相互作用の軌跡が活用され、3つの段階を経て構築された。汎用能力を強化するCPT(継続的な事前学習)、次状態予測を最適化するSFT(教師ありファインチューニング)、そしてハイブリッドな評価基準に基づく報酬を用いてシミュレーションの精度を高める強化学習(RL)が含まれる。
性能評価のために、5つの最先端モデルの相互作用に基づく9つのタスクで構成された「AgentWorldBench」がリリースされた。Qwen-AgentWorldはこのベンチマークにおいて既存モデルを大きく凌駕した。本モデルは単なるシミュレーションにとどまらず、スケーラブルなエージェント強化学習のための独立したシミュレーターとして機能し、7つのエージェント関連ベンチマークで下流タスクの性能を改善する効果的な準備フェーズを提供する。