Amazon Bedrock、AIによるOSレベルの制御を実現
- •AmazonがBedrock AgentCore BrowserにOSレベルのアクションを追加し、DOM制限を克服
- •AIエージェントがOSのダイアログ、セキュリティ警告、メニューと直接対話可能に
- •「アクション・スクリーンショット・反応」のループにより複雑なデスクトップ環境をナビゲート
AIエージェントを開発する上で、これまでブラウザは主要な活動の場であった。エージェントはDocument Object Model(DOM)内で動作しており、これはウェブサイトの構造を把握し、ボタンや画像といった要素を理解するための設計図である。しかし、この環境には明確な壁が存在した。OS固有のセキュリティ警告やファイルアップロードのダイアログといった要素が出現すると、エージェントはブラウザ外の情報を認識できず、操作を中断せざるを得なかった。
AmazonがBedrock AgentCore Browserに施した最新のアップデートは、この制限を打破するものである。OSレベルのアクションを導入することで、AIエージェントはブラウザ内部の論理を超え、オペレーティングシステムそのものと直接やり取りが可能となった。これにより、macOSやWindowsのシステム警告に直面しても、エージェントは人間と同様に画面全体を認識し、適切なクリックや入力といった操作を実行できる。
この革新を支えるのは「行動・観察・決定」という継続的なフィードバックループである。エージェントはマウス操作などのアクションをOSレベルで実行した後、全画面のスクリーンショットを撮影する。この視覚データがVision Modelへ送信され、現在のデスクトップ状態を分析して次の手順を判断するのだ。コンピュータを単なるコードの集合体ではなく、AIが視覚的に認識しナビゲート可能なインターフェースへと変貌させている。
この進展は、現実世界のワークフローを模倣する上で極めて重要である。エンタープライズ環境における業務の多くは、単一のウェブ環境には収まらず、ポップアップや複雑な設定画面が入り乱れている。この溝を埋めることで、Amazonは人間による介入を最小限に抑え、エンドツーエンドでタスクを完遂できる自律型エージェントの構築を支援している。AIは単なる指示待ちボットから、デジタルな相棒へと着実に進化しつつある。