AWS, 제조 문서용 멀티모달 검색 시스템 공개
AWS ML Blog
2026년 5월 12일 (화)
- •AWS, Amazon Nova 멀티모달 임베딩과 Amazon S3 벡터 기반 제조 검색 시스템 출시
- •텍스트, 이미지, 문서를 1024차원 공유 벡터 공간으로 매핑해 통합 검색 지원
- •OCR 방식과 비교 평가 위해 26개 질의와 LLM-as-a-judge 프레임워크 활용
AWS가 2026년 5월 11일, 항공우주 및 중공업 분야 문서를 위한 멀티모달 검색 시스템 구축 가이드를 공개했다. 이 시스템은 Amazon Nova 멀티모달 임베딩을 사용하여 CAD 도면, 검사 사진, 열화상 데이터 등을 색인화한다. 기존의 텍스트 전용 광학 문자 인식(OCR) 방식은 이러한 기술 문서의 공간적 맥락을 파악하기 어렵다는 한계가 있었으나, 이번 시스템은 이를 보완한다.
해당 솔루션은 텍스트, 이미지, 문서 페이지를 1024차원의 공유 벡터 공간에 매핑하여 서로 다른 데이터 유형 간의 코사인 유사도를 직접 계산한다. 개발팀은 15개의 단일 기술 이미지와 5개의 다중 페이지 PDF로 구성된 데이터셋을 바탕으로 26개의 제조 관련 질의를 통해 성능을 검증했다. 이 모델은 차트와 표가 혼합된 페이지를 처리하기 위한 DOCUMENT_IMAGE 처리 모드를 지원한다.
이번 프로젝트에서는 기존 광학 문자 인식(OCR) 기반 방식과 멀티모달 파이프라인의 검색 및 생성 품질을 비교했다. 질의당 상위 5개 결과값을 도출한 후, Amazon Nova 2 Lite가 검색된 문맥을 기반으로 답변을 생성했다. 또한 Anthropic Claude Sonnet 4.5가 판정자(LLM-as-a-judge) 역할을 수행하여 정답 대비 답변의 정확도를 1~5점 척도로 평가했다. 검색 성능 지표로는 Recall@K, 평균 상호 순위(MRR), NDCG@K를 사용했다.