LegalOn、2026年版契約書レビューAIベンチマークを発表
- •LegalOnは21の法的ガイドラインに基づき、11種類のAIモデルを用いて3,282件の契約書レビューをベンチマーク評価した。
- •LegalOnのシステムは、次点モデルの40.4秒に対し、2.3秒という処理速度を達成した。
- •LegalOnプラットフォームは次点モデルを87ポイント、主要なGPTモデルを400ポイント以上上回るイロレーティングを記録した。
LegalOnは2026年6月22日、11種類のAIモデルを対象とした2026年版契約書レビューベンチマークを発表した。この調査では3,282件の比較レビューを実施し、精度が極めて重要となる21の法的ガイドラインを用いて各モデルを評価した。LegalOnの分析によれば、基盤モデルは法的なトピックを正しく特定できる一方で、特定の基準を適用する際には一貫性を欠くことが多い。特に、PH(個人健康情報)の所有権や無条件譲渡要件といった細かなニュアンスや規定の見落としが顕著であった。
同ベンチマークは、モデルを制御するソフトウェアアーキテクチャがパフォーマンスに大きく影響することを示している。一般的なモデルが契約書全体を一度にレビューするのに対し、LegalOnのシステムはレビューを規定単位の構造化されたチェックに分解する。この手法により、契約レビューを広範な解析ではなく、個別の小さなタスクの集合として扱うことで、特定の法的基準への準拠を確保している。
評価結果では、LegalOnのシステムが全21種類の規定カテゴリーで首位を獲得した。イロレーティングにおいて次点モデルを87ポイント上回り、比較対象の最高性能のGPTモデルに対しても400ポイント以上の差をつけた。処理速度においても、LegalOnは契約書1件あたり2.3秒で完了し、次点であるClaude Opus 4.6の平均40.4秒を大幅に短縮した。
正確性を担保しバイアスを排除するため、本研究では独立したLLMジャッジを導入し、正確性、論理性、網羅性の観点から出力を評価した。順序によるバイアスを排除するために比較はすべて順序を入れ替えて2回実施し、一貫した選好のみを勝利としてカウントした。さらに、法的専門家がサンプル出力を検証し、専門基準との整合性を確認している。本ベンチマークは法的AI評価の標準指標となり、モデルの信頼性においてアーキテクチャとシステム統合が不可欠であることを強調している。