AWS、Nova 2 LiteとClaudeで文書処理を最適化
- •AWSは卒業アルバムのデジタル化に向け、Nova 2 LiteとClaude Sonnet 4.6を組み合わせた2モデルパイプラインを展開した。
- •本システムは3,122件の関連付けで93.3%の信頼度を達成し、単一モデル構成と比較してコストを3分の1に抑えた。
- •画像単位の固定料金と適応型推論により、数十万ページの処理においても予測可能でスケーラブルなコストを実現する。
Amazon Web Services (AWS) は、Amazon Nova 2 LiteとAnthropicのClaude Sonnet 4.6を組み合わせ、スキャンした卒業アルバムをデジタル化するコスト最適化された2モデル構成のパイプラインをAmazon Bedrock上で発表した。このアーキテクチャはタスクを分割して効率を高めている。Nova 2 Liteは単一のAPI呼び出しでマルチモーダルな抽出を行い、写真の場所、表示されている名前、ページメタデータを特定する。続いてClaude Sonnet 4.6が適応型推論能力を駆使し、ページレイアウトに基づいて名前と顔をマッピングする空間推論を行う。この手法により、冗長な処理を回避しコストを大幅に削減した。
336ページのスキャンデータを用いたテストでは高い信頼性が示された。3,122件の名前と顔の関連付けのうち、93.3%が0.95以上の信頼スコアを達成し、0.90を下回ったのはわずか0.3%だった。処理コストは1ページあたり約$0.033で、単一の視覚言語モデルを使用する場合と比較して約3分の1となる。Nova 2 Liteの画像単位の固定料金は、解像度やファイルサイズに関わらず適用されるため、大量処理におけるコスト予測が可能だ。Claudeの適応型推論は、単純なポートレートのグリッドから複雑な集合写真まで、ページの複雑さに応じて推論の深さを自動調整し、さらなる最適化を実現する。
開発者は、Jupyter Notebookやソースコードを含むGitHub上のAWS Samplesリポジトリからこのソリューションを実装できる。ワークフローにはPython 3.10以降とboto3 SDKが必要だ。基盤となるパイプラインに加え、さらなるコスト削減も可能である。Amazon Bedrockでのバッチ推論は、夜間のワークロードに対して50%の割引を提供し、プロンプトキャッシュはキャッシュされたプロンプトトークンコストを最大90%削減する。さらに、ClaudeのbudgetTokens上限を設定することで推論コストを管理できる。検出と推論のステージを分離することで、より高度なモデルが登場した際にも各コンポーネントを個別に調整やアップグレードできるモジュール式アーキテクチャとなっている。