この記事の要点は？

エージェント環境シミュレーション向けモデル「Qwen-AgentWorld-35B-A3B」および「Qwen-AgentWorld-397B-A17B」が公開された。 1000万件の相互作用軌跡と、CPT、SFT、強化学習（RL）の3段階のトレーニングパイプラインを採用している。新ベンチマーク「AgentWorldBench」において、9つの主要タスクで既存の最先端モデルを上回る性能を記録した。

エージェントシミュレーション用モデル「Qwen-AgentWorld」発表

HuggingFace

2026年6月25日 (木)

•エージェント環境シミュレーション向けモデル「Qwen-AgentWorld-35B-A3B」および「Qwen-AgentWorld-397B-A17B」が公開された。
•1000万件の相互作用軌跡と、CPT、SFT、強化学習（RL）の3段階のトレーニングパイプラインを採用している。
•新ベンチマーク「AgentWorldBench」において、9つの主要タスクで既存の最先端モデルを上回る性能を記録した。

•エージェント環境シミュレーション向けモデル「Qwen-AgentWorld-35B-A3B」および「Qwen-AgentWorld-397B-A17B」が公開された。
•1000万件の相互作用軌跡と、CPT、SFT、強化学習（RL）の3段階のトレーニングパイプラインを採用している。
•新ベンチマーク「AgentWorldBench」において、9つの主要タスクで既存の最先端モデルを上回る性能を記録した。

研究者らは、エージェント環境のシミュレーションと推論能力を強化するために設計された言語ベースの「World model（世界モデル）」フレームワークであるQwen-AgentWorldを発表した。今回公開されたのはQwen-AgentWorld-35B-A3BとQwen-AgentWorld-397B-A17Bの2つの主要バージョンである。これらのモデルは、「Chain-of-thought（思考の連鎖：回答前に段階的な推論過程を出力する手法）」技術を用いて、7つの異なる領域でエージェント環境をシミュレートする。

開発パイプラインでは1000万件を超える環境相互作用の軌跡が活用され、3つの段階を経て構築された。汎用能力を強化するCPT（継続的な事前学習）、次状態予測を最適化するSFT（教師ありファインチューニング）、そしてハイブリッドな評価基準に基づく報酬を用いてシミュレーションの精度を高める強化学習（RL）が含まれる。

性能評価のために、5つの最先端モデルの相互作用に基づく9つのタスクで構成された「AgentWorldBench」がリリースされた。Qwen-AgentWorldはこのベンチマークにおいて既存モデルを大きく凌駕した。本モデルは単なるシミュレーションにとどまらず、スケーラブルなエージェント強化学習のための独立したシミュレーターとして機能し、7つのエージェント関連ベンチマークで下流タスクの性能を改善する効果的な準備フェーズを提供する。

原文(英語)を読む·2026年6月25日

#qwen #agentic ai #world model #reinforcement learning #chain of thought

エージェントシミュレーション用モデル「Qwen-AgentWorld」発表

HuggingFace

2026年6月25日 (木)

•エージェント環境シミュレーション向けモデル「Qwen-AgentWorld-35B-A3B」および「Qwen-AgentWorld-397B-A17B」が公開された。
•1000万件の相互作用軌跡と、CPT、SFT、強化学習（RL）の3段階のトレーニングパイプラインを採用している。
•新ベンチマーク「AgentWorldBench」において、9つの主要タスクで既存の最先端モデルを上回る性能を記録した。

•エージェント環境シミュレーション向けモデル「Qwen-AgentWorld-35B-A3B」および「Qwen-AgentWorld-397B-A17B」が公開された。
•1000万件の相互作用軌跡と、CPT、SFT、強化学習（RL）の3段階のトレーニングパイプラインを採用している。
•新ベンチマーク「AgentWorldBench」において、9つの主要タスクで既存の最先端モデルを上回る性能を記録した。

原文(英語)を読む·2026年6月25日

#qwen #agentic ai #world model #reinforcement learning #chain of thought