Amazon, 단백질 연구용 AI 코파일럿 구축 가이드 공개
- •Amazon은 Bedrock AgentCore와 Strands Agents SDK를 활용한 단백질 연구 보조 도구 구축 가이드를 발표했다.
- •이 시스템은 ESM-C 300M 모델로 960차원의 단백질 임베딩을 생성하며, Amazon Aurora의 pgvector로 데이터를 저장한다.
- •아키텍처는 쿼리 분석, 벡터 기반 유사성 검색, 과학적 요약을 자동화하는 다중 도구 구조로 설계됐다.
단백질 연구자들은 수천 개의 펩타이드 서열을 수동으로 분석하는 과정에서 많은 시간을 소모하며, 오류 발생 가능성도 크다. 이를 해결하기 위해 개발자는 에이전트 호스팅을 위한 관리형 런타임인 Amazon Bedrock AgentCore와 Strands Agents SDK를 사용하여 AI 연구 코파일럿을 구축할 수 있다. 이 보조 도구는 연구자가 특정 바이러스 에피토프와 유사한 펩타이드를 검색하는 등 자연어 쿼리를 입력하면, 과학적 분석 결과를 자동 요약하여 제공한다. 시스템 아키텍처는 검색 매개변수를 추출하는 파서, 벡터 기반 유사성 검색을 수행하는 탐색기, 데이터를 해석하는 요약기 등 3가지 특화 도구를 관리하는 오케스트레이터 에이전트를 중심으로 구성된다.
핵심 검색 기능에는 생명과학 연구에 딥러닝을 적용하는 기업 EvolutionaryScale의 단백질 언어 모델인 ESM-C 300M이 사용된다. 이 모델은 단백질의 구조적·기능적 특성을 나타내는 960차원의 임베딩을 생성한다. 해당 임베딩은 코사인 유사도 검색을 지원하는 pgvector 확장이 적용된 Amazon Aurora PostgreSQL 호환 데이터베이스에 저장된다. 모델 가중치를 Amazon SageMaker AI 서버리스 엔드포인트에 직접 포함함으로써 실행 시 외부 모델 다운로드 과정을 생략하여 콜드 스타트 지연을 최소화했다.
이 솔루션은 Strands 오케스트레이터 에이전트가 파서와 요약기를 개별 도구로 취급하는 모듈식 설계를 채택한다. 이러한 '에이전트-as-도구' 패턴은 사용자 쿼리 파싱부터 벡터 유사성을 통한 후보 서열 검색, 과학적 통찰 생성까지의 워크플로를 단순화한다. 전체 인프라는 AWS CloudFormation으로 관리되며, 에이전트 런타임과 데이터베이스 간 통신은 Amazon RDS Data API를 통해 HTTPS로 처리된다. 이러한 보안 컨테이너화 방식을 통해 연구자는 자연어 요청을 통합 대화형 인터페이스 내에서 즉각적인 분석 보고서로 변환할 수 있다.