AWS、生成AI監視ツール「Amazon Bedrock Ops Alert」を発表
- •AWSは、生成AIワークロード向け3層構造の自動監視システム「Amazon Bedrock Ops Alert」を提供開始した。
- •異常検知の自動化や動的なしきい値更新、インテリジェントなサポート案件作成機能を備え、SREの運用効率を向上させる。
- •グローバルなクロスリージョン推論とプロンプトキャッシュの活用により、コストをそれぞれ約10%および最大90%削減可能だ。
Amazon Bedrockは現在10万以上の組織で生成AIの基盤となっており、大規模な運用維持に向けた高度な監視体制が求められている。AWSは2026年6月3日、本番ワークロードのプロアクティブな管理とクォータ(利用制限)最適化を実現する「Amazon Bedrock Ops Alert」を発表した。このシステムはAmazon CloudWatch、AWS Lambda、AWS Support APIを統合し、手動によるしきい値更新や事後対応型のインシデント管理といった課題を解決する。
監視アーキテクチャは3層で構成される。第1層はスロットルやクライアント/サーバーエラーを検知し、感度の設定も可能だ。第2層はRPM(1分あたりのリクエスト数)およびTPM(1分あたりのトークン数)のクォータに基づき、しきい値を動的に計算する。例えば10,000 RPMのクォータに対し80%のしきい値を設定した場合、8,000 RPMで通知が行われる。第3層では機械学習による異常検知を用い、静的なしきい値では捉えきれない予期せぬ急増や緩やかな性能低下を特定する。
運用負荷を軽減するため、しきい値管理も自動化されている。EventBridgeルールがLambda関数を通常1日1回のスケジュールで起動し、Service Quotasの更新に合わせてアラーム値を再計算する。これらの値はAWS Systems Manager Parameter Storeで保持される。また、AWS BusinessまたはEnterprise Supportプランの利用者は、自動サポート案件作成機能を利用できる。通知プロセッサはアラームを分類し、最大60日前までの重複案件を確認した上でチケットを発行するため、エンジニアは過去14日間のピークデータを含む詳細な情報を得られ、解決までの時間を短縮できる。
さらに、グローバルなクロスリージョン推論によってリクエストを動的に分散させることでコストを約10%削減できるほか、繰り返し利用される入力データを保持するプロンプトキャッシュにより、推論の応答速度とコストを最大90%改善できる。これらの最適化戦略と自動化された監視体制を組み合わせることで、AIチームは手作業の運用工数を増やすことなく、モデルポートフォリオの拡大に注力可能となる。