AWS、製造業向けマルチモーダル検索システムを発表
AWS ML Blog
2026年5月12日 (火)
- •AWSは、Amazon Nova Multimodal EmbeddingsとAmazon S3 Vectorsを用いた製造業向け検索システムをリリースした
- •本システムはテキスト、画像、文書を共通の1024次元ベクトル空間にマッピングする
- •研究チームは26件のクエリとLLM-as-a-judgeフレームワークを用い、従来の光学文字認識(OCR)ベースの手法と比較評価を行った
AWSは2026年5月11日、航空宇宙および重工業分野の文書を対象としたマルチモーダル検索システムの技術ガイドを公開した。本システムはAmazon Nova Multimodal Embeddingsを活用し、従来のテキストのみの光学文字認識(OCR)では誤認や情報の欠落が生じやすかったCAD図面、検査写真、サーモグラフィなどの技術ファイルを統合的にインデックス化する。
本ソリューションは、テキスト、画像、文書ページを共通の1024次元ベクトル空間にマッピングし、異なるデータ型間でのコサイン類似度を直接算出する。開発チームは15件の独立した技術画像と5件の複数ページPDFからなるデータセットを使用し、26件の製造関連クエリを用いて性能を検証した。また、グラフや表が混在するページ向けに「DOCUMENT_IMAGE」処理モードを備えている。
検索と生成の品質を測定するため、マルチモーダルパイプラインとOCRベースのベースラインを比較した。各クエリにつき上位5件の結果を抽出し、Amazon Nova 2 Liteを用いて回答を生成。その精度をAnthropic Claude Sonnet 4.5がLLM-as-a-judgeとして1から5のスケールで評価した。評価指標にはRecall@K、Mean Reciprocal Rank (MRR)、NDCG@Kを採用した。