이 기사의 핵심 내용은?

에이전트 환경 시뮬레이션을 위한 Qwen-AgentWorld-35B-A3B 및 Qwen-AgentWorld-397B-A17B 모델이 공개됐다. 해당 모델은 10M 개의 상호작용 궤적을 활용하여 CPT, SFT, 강화 학습의 3단계 훈련 과정을 거쳤다. 신규 벤치마크인 AgentWorldBench에서 Qwen-AgentWorld가 기존 9개 주요 작업 전반에 걸쳐 우수한 성능을 입증했다.

Qwen-AgentWorld, 에이전트 환경 시뮬레이션 모델 공개

•에이전트 환경 시뮬레이션을 위한 Qwen-AgentWorld-35B-A3B 및 Qwen-AgentWorld-397B-A17B 모델이 공개됐다.
•해당 모델은 10M 개의 상호작용 궤적을 활용하여 CPT, SFT, 강화 학습의 3단계 훈련 과정을 거쳤다.
•신규 벤치마크인 AgentWorldBench에서 Qwen-AgentWorld가 기존 9개 주요 작업 전반에 걸쳐 우수한 성능을 입증했다.

연구진이 에이전트 환경 시뮬레이션과 추론 능력을 고도화하기 위한 언어 기반 월드 모델 프레임워크인 Qwen-AgentWorld를 발표했다. 이번에 공개된 모델은 Qwen-AgentWorld-35B-A3B와 Qwen-AgentWorld-397B-A17B 두 가지 버전으로, 긴 체인 오브 쏭트(Chain-of-thought) 기법을 활용해 7개 도메인에서 에이전트 환경을 모사한다. 개발 과정에서는 10M 개가 넘는 환경 상호작용 궤적을 사용했으며, 일반적 능력을 위한 CPT(지속적 사전 학습), 다음 상태 예측을 위한 SFT(지도 미세 조정), 하이브리드 보상 체계를 통한 시뮬레이션 정밀도 향상을 목적으로 하는 강화 학습의 3단계 파이프라인을 거쳤다.

연구팀은 성과 측정을 위해 5개 프런티어 모델의 상호작용을 기반으로 구성된 AgentWorldBench 벤치마크를 함께 공개했다. Qwen-AgentWorld는 기존 모델들보다 해당 벤치마크에서 뛰어난 성능을 보였다. 특히 이 모델은 확장 가능한 에이전트 강화 학습을 위한 독립적 시뮬레이터로 기능하며, 7개 에이전트 벤치마크 전반에서 하위 작업의 성능을 향상시키는 효과적인 웜업 단계를 제공한다.

연구진이 에이전트 환경 시뮬레이션과 추론 능력을 고도화하기 위한 언어 기반 월드 모델 프레임워크인 Qwen-AgentWorld를 발표했다. 이번에 공개된 모델은 Qwen-AgentWorld-35B-A3B와 Qwen-AgentWorld-397B-A17B 두 가지 버전으로, 긴 체인 오브 쏭트(Chain-of-thought) 기법을 활용해 7개 도메인에서 에이전트 환경을 모사한다. 개발 과정에서는 10M 개가 넘는 환경 상호작용 궤적을 사용했으며, 일반적 능력을 위한 CPT(지속적 사전 학습), 다음 상태 예측을 위한 SFT(지도 미세 조정), 하이브리드 보상 체계를 통한 시뮬레이션 정밀도 향상을 목적으로 하는 강화 학습의 3단계 파이프라인을 거쳤다.

연구팀은 성과 측정을 위해 5개 프런티어 모델의 상호작용을 기반으로 구성된 AgentWorldBench 벤치마크를 함께 공개했다. Qwen-AgentWorld는 기존 모델들보다 해당 벤치마크에서 뛰어난 성능을 보였다. 특히 이 모델은 확장 가능한 에이전트 강화 학습을 위한 독립적 시뮬레이터로 기능하며, 7개 에이전트 벤치마크 전반에서 하위 작업의 성능을 향상시키는 효과적인 웜업 단계를 제공한다.