Amazon、タンパク質研究用AIコパイロット構築ガイドを公開
- •アマゾンはBedrock AgentCoreとStrands Agents SDKを用いたタンパク質研究支援AIの構築ガイドを公開した。
- •システムにはESM-C 300Mによる960次元のタンパク質埋め込みと、ベクトル検索対応のAmazon Auroraが採用されている。
- •クエリ解析、ベクトル類似検索、科学的要約を自動化するマルチツール設計がアーキテクチャの核となる。
タンパク質研究において、数千ものペプチド配列の手作業による分析は多大な時間を要し、人為的ミスのリスクを伴う。これに対処するため、開発者は管理型エージェント実行環境であるAmazon Bedrock AgentCoreとStrands Agents SDKを活用し、研究支援用AIコパイロットを構築できる。このシステムにより、研究者は「特定のウイルスエピトープに類似したペプチドの検索」といった自然言語クエリを実行し、科学的知見の自動要約を受け取ることが可能だ。システム構成には、クエリ解析用パーサー、ベクトルベースの類似検索用サーチ、データ解釈用の要約エンジンという3つの専門ツールを管理するオーケストレーターエージェントが含まれる。
検索機能の基盤には、生物学的研究に深層学習を適用する企業EvolutionaryScaleが開発したタンパク質言語モデル、ESM-C 300Mが活用されている。このモデルはタンパク質の構造的・機能的特性を示す960次元のベクトル(埋め込み)を生成する。これらのベクトルは、コサイン類似度検索をサポートするpgvector拡張機能を備えたAmazon Aurora PostgreSQL互換データベースに格納される。モデルの重みをAmazon SageMakerのサーバーレスエンドポイントに直接組み込むことで、実行時の外部ダウンロードを回避し、コールドスタートの遅延を最小限に抑えた効率的な性能を実現している。
本ソリューションは、Strandsオーケストレーターがパーサーや要約ツールをそれぞれ独立したエージェントとして扱う「ツールとしてのエージェント」パターンを採用している。この設計は、ユーザーのクエリ解析から類似配列の抽出、簡潔な科学的知見の生成という主要フローを簡略化する。インフラストラクチャ全体はAWS CloudFormationで管理され、エージェント環境とデータベース間の通信はAmazon RDS Data APIを介してHTTPSで行われる。この安全なコンテナ化されたアプローチにより、研究者は自然言語によるリクエストから構造化された分析レポートまで、統一された対話型インターフェースを通じて完結させることができる。