아마존, 차세대 RAG 위한 Nova 멀티모달 임베딩 공개
- •Amazon Nova 멀티모달 임베딩은 텍스트, 이미지, 오디오, 비디오를 하나의 통합된 시맨틱 공간에서 지원한다.
- •이 모델은 작업별로 특화된 검색 모드를 제공하며, 정밀한 문서 분석을 위해 최대 3072차원을 지원한다.
- •모델 컨텍스트 프로토콜(MCP)과의 기본 통합을 통해 고도화된 에이전틱 AI 시스템 구축이 더욱 용이해졌다.
아마존웹서비스(AWS)가 아마존 Bedrock에 'Amazon Nova 멀티모달 임베딩' 모델을 전격 출시했다. 이 모델은 텍스트, 이미지, 비디오, 오디오 등 서로 다른 데이터 유형 간의 간극을 좁히기 위해 설계된 다재다능한 파운데이션 모델이다. 입력된 데이터를 임베딩 모델이라는 수치적 표현으로 변환함으로써, 유사한 개념들이 한데 모이는 통합된 시맨틱 공간을 구축한다. 이에 따라 개발자들은 텍스트 설명으로 특정 비디오 클립을 찾거나, 제품 이미지만으로 유사한 상품을 검색하는 복잡한 교차 모달 검색 기능을 손쉽게 구현할 수 있게 되었다.
특히 이 모델의 강점은 각 작업의 특성에 맞춰 성능을 최적화할 수 있는 고도의 커스터마이징 기능에 있다. 일률적인 방식을 벗어나, 사용자는 저장용 인덱싱 모드와 문서 이미지, 오디오, 비디오에 특화된 개별 검색 모드를 자유롭게 선택할 수 있다. 실제로 데이터 밀도가 높은 금융 보고서를 분석할 경우, 모델은 차원을 최대 3072까지 확장하여 더욱 정밀한 수치 지도를 생성한다. 이러한 유연성 덕분에 복잡한 표나 차트의 세부 정보까지 정확하게 파악하고 검색해내는 것이 가능해졌다.
단순한 검색을 넘어, 이러한 임베딩 기술은 사실적 데이터에 근거해 답변을 생성하는 검색 증강 생성 (RAG) 기반의 에이전틱 AI 시스템을 구축하는 데 핵심적인 역할을 수행한다. 특히 서로 다른 AI 도구 간의 원활한 통신을 돕는 개방형 표준인 모델 컨텍스트 프로토콜을 지원하여, 개발자는 고도화된 검색 기능을 AI 어시스턴트에 즉시 연결할 수 있다. 이러한 통합은 AI가 다양한 미디어 형식을 가로지르며 자율적으로 정보를 검색하고 추론하여, 사용자의 복잡한 요구사항을 해결하는 더욱 정교한 워크플로우를 가능케 한다.