MobileForge, 모바일 GUI 에이전트 학습 효율 대폭 개선
HuggingFace
2026년 6월 25일 (목)
- •MobileForge는 계층적 피드백 기반 정책 최적화를 통해 사람이 주석을 달지 않아도 모바일 GUI 에이전트를 학습시킨다.
- •ForgeOwl-8B 모델은 AndroidWorld 77.6% 및 미학습 MobileWorld 41.0%의 Pass@3 성능을 달성했다.
- •이 시스템은 MobileGym을 활용해 실제 앱 환경에서 상호작용을 검증하고, GRPO를 도입해 단계별 처리 피드백을 강화했다.
MobileForge는 실제 앱 상호작용을 기반으로 작업 생성과 평가를 수행하여 모바일 GUI 에이전트의 효율을 높이는 주석 불필요 학습 시스템이다. 기존 에이전트 모델은 사람이 직접 작성한 작업 데이터나 보상 라벨링에 드는 높은 비용, 그리고 모바일 앱의 빠른 업데이트 주기 문제로 한계를 겪어왔다. 이를 해결하기 위해 MobileForge는 상호작용 접지 프레임워크인 MobileGym과 계층적 피드백 기반 정책 최적화인 HiFPO를 선보였다. HiFPO는 궤적 결과와 단계별 과정 피드백, 교정 힌트를 힌트 맥락화된 GRPO 업데이트로 전환한다.
자동 생성된 데이터만을 활용하여 Qwen3-VL-8B 모델을 최적화한 결과, AndroidWorld 벤치마크에서 67.2%의 Pass@3를 기록했다. 이는 비공개 데이터 기반의 GUI 특화 모델인 GUI-Owl-1.5-8B의 69.0%와 대등한 수준이다. 나아가 ForgeOwl-8B 모델은 AndroidWorld에서 77.6%의 Pass@3를, 도메인 외 데이터셋인 MobileWorld GUI 전용 분할에서 41.0%의 성공률을 확보했다. 연구진은 해당 모델이 현재 오픈 데이터로 구축된 모바일 GUI 에이전트 중 가장 강력한 성능을 보인다고 밝혔으며, 관련 코드와 데이터, 학습 모델을 프로젝트 웹사이트를 통해 공개할 예정이다.