この記事の要点は？

MobileForgeは階層的フィードバック誘導型ポリシー最適化を用い、注釈なしでモバイルGUIエージェントを学習させる手法を導入した。 ForgeOwl-8BモデルはAndroidWorldで77.6%のPass@3を達成し、ドメイン外のMobileWorldベンチマークでは41.0%の成功率を記録した。同システムは実アプリ環境での相互作用を学習するMobileGymと、ステップごとのプロセスフィードバックを改善するGRPO更新を活用している。

MobileForge、注釈不要のモバイルGUIエージェントを開発

HuggingFace

2026年6月25日 (木)

•MobileForgeは階層的フィードバック誘導型ポリシー最適化を用い、注釈なしでモバイルGUIエージェントを学習させる手法を導入した。
•ForgeOwl-8BモデルはAndroidWorldで77.6%のPass@3を達成し、ドメイン外のMobileWorldベンチマークでは41.0%の成功率を記録した。
•同システムは実アプリ環境での相互作用を学習するMobileGymと、ステップごとのプロセスフィードバックを改善するGRPO更新を活用している。

•MobileForgeは階層的フィードバック誘導型ポリシー最適化を用い、注釈なしでモバイルGUIエージェントを学習させる手法を導入した。
•ForgeOwl-8BモデルはAndroidWorldで77.6%のPass@3を達成し、ドメイン外のMobileWorldベンチマークでは41.0%の成功率を記録した。
•同システムは実アプリ環境での相互作用を学習するMobileGymと、ステップごとのプロセスフィードバックを改善するGRPO更新を活用している。

MobileForgeは、実アプリ環境との相互作用に基づき、タスク生成と評価を最適化する注釈不要の適応型システムである。従来のエージェントモデルは、人間が作成したタスクや報酬ラベルの作成コスト、さらにモバイルアプリの頻繁なアップデートという課題に直面してきた。これに対し、MobileForgeは相互作用基盤であるMobileGymと、階層的フィードバック誘導型ポリシー最適化（HiFPO）を採用した。HiFPOは、軌道の結果やステップごとのプロセスフィードバック、修正ヒントをコンテキスト化し、GRPO更新へと変換する。

自動生成データのみを用いた学習により、Qwen3-VL-8BモデルはAndroidWorldベンチマークで67.2%のPass@3を達成した。これはクローズドなGUI特化モデルであるGUI-Owl-1.5-8Bの69.0%に迫る数値である。さらに、適応型のForgeOwl-8BモデルはAndroidWorldで77.6%のPass@3を記録し、ドメイン外のMobileWorld GUI分割データにおいても41.0%の成功率を達成した。研究チームは、このForgeOwl-8Bが現在利用可能な中で最も強力なオープンデータ版モバイルGUIエージェントであると評価しており、コードとデータ、モデルを公開する予定だ。

原文(英語)を読む·2026年6月25日

#mobileforge #gui agent #grpo #androidworld #qwen3 vl 8b #forgeowl 8b

MobileForge、注釈不要のモバイルGUIエージェントを開発

HuggingFace

2026年6月25日 (木)

•MobileForgeは階層的フィードバック誘導型ポリシー最適化を用い、注釈なしでモバイルGUIエージェントを学習させる手法を導入した。
•ForgeOwl-8BモデルはAndroidWorldで77.6%のPass@3を達成し、ドメイン外のMobileWorldベンチマークでは41.0%の成功率を記録した。
•同システムは実アプリ環境での相互作用を学習するMobileGymと、ステップごとのプロセスフィードバックを改善するGRPO更新を活用している。

•MobileForgeは階層的フィードバック誘導型ポリシー最適化を用い、注釈なしでモバイルGUIエージェントを学習させる手法を導入した。
•ForgeOwl-8BモデルはAndroidWorldで77.6%のPass@3を達成し、ドメイン外のMobileWorldベンチマークでは41.0%の成功率を記録した。
•同システムは実アプリ環境での相互作用を学習するMobileGymと、ステップごとのプロセスフィードバックを改善するGRPO更新を活用している。

原文(英語)を読む·2026年6月25日

#mobileforge #gui agent #grpo #androidworld #qwen3 vl 8b #forgeowl 8b