Arena、マルチステップ対応の「エージェントモード」を公開
- •Arena TeamがArena.aiにおいて、自律的なマルチステップワークフローを実現する「エージェントモード」をリリースした。
- •ユーザーはWeb検索、コーディング、Bash環境などのツールを利用し、複雑なタスクを単一の環境で実行可能となった。
- •新設のリーダーボード「エージェントアリーナ」は、実際のユーザーの行動シグナルに基づきモデルの性能を評価する。
2026年6月4日、Arena Teamは従来のチャット形式から自律的なエージェンティックAI(自律型AI)ワークフローへと移行するための新機能「エージェントモード」を公開した。従来のチャットインターフェースでは複雑な作業を小分けにする必要があったが、エージェントモードではAIが自ら計画を立て、内蔵ツールを使用してワークフロー全体を実行する。これにはWeb検索、画像生成、コーディング支援、ファイルアップロードに加え、テストや反復作業用のBash環境も含まれる。利用者はArenaホームページ上で「バトルモード」から切り替えることで同機能にアクセスできる。
本機能は、Webサイト構築や詳細な調査、製品リリースの調整といった複雑なタスクを単一のサンドボックス環境で完結させることを目的としている。現在の利用データによると、コーディング関連のタスクが29%と最多を占め、調査と計画が各11%、ワークフローの自動化が3.9%と続く。また、ユーザーは完全な自律性よりも「管理職」的な役割を好む傾向があり、エージェントへの指示において制御を強める頻度は、緩める場合の2倍に達している。
併せて導入された「エージェントアリーナ」リーダーボードは、複数コンポーネントを持つエージェントの評価手法を刷新する。この評価は、数百万件のやり取りから得られた自然言語によるフィードバックやタスク完了の明示的なラベル、成果物のダウンロード履歴といった有機的なユーザーデータに基づいている。このアプローチは、精選されたプロンプトではなく、実際の行動シグナルによってAIの性能を測定する業界標準を目指している。リーダーボードは各モデルがエージェントタスクをどう処理するかを公開し、コミュニティ由来のデータが継続的なランキングに反映される仕組みだ。