LegalOn, 2026 계약 검토 AI 벤치마크 공개
- •LegalOn이 11개 AI 모델을 대상으로 3,282건의 계약 검토와 21개 정밀 법률 가이드라인을 벤치마크했다.
- •LegalOn 시스템은 2.3초 만에 검토를 완료해 차순위 모델의 40.4초 대비 압도적인 속도를 기록했다.
- •LegalOn 플랫폼은 차순위 모델보다 엘로 점수 87점, 상위 GPT 모델보다는 400점 이상 높은 점수를 기록했다.
LegalOn은 2026년 6월 22일, 11개 AI 모델을 대상으로 3,282건의 일대일 비교 검토를 수행한 2026 계약 검토 벤치마크를 발표했다. 이번 연구는 21개의 정밀 법률 가이드라인을 중심으로, 모델의 원시 상태와 자사의 특화 시스템을 비교하는 방식으로 진행됐다. 분석 결과, 파운데이션 모델은 법률 주제는 정확히 식별하나, PHI(개인 건강 정보) 소유권이나 무조건적 양도 요건과 같은 미세한 세부 조항을 놓치는 등 특정 법률 기준 적용에 한계를 보였다.
벤치마크 결과에 따르면 모델의 성능은 이를 감싸는 소프트웨어 아키텍처에 따라 크게 좌우된다. 범용 모델이 계약서 전체를 한 번에 검토하는 방식인 반면, LegalOn 시스템은 검토 과정을 구조화된 조항 단위 점검으로 분할한다. 이러한 체계적인 접근은 계약 검토를 포괄적 분석이 아닌 개별적인 소규모 작업들로 처리함으로써 법률 기준 준수율을 높였다.
성과 측면에서 LegalOn 시스템은 21개 모든 조항 유형에서 1위를 차지했다. 특히 차순위 경쟁사보다 엘로 점수 87점, 최고 성능의 GPT 모델보다는 400점 이상 높은 성적을 거뒀다. 처리 속도 면에서도 LegalOn은 2.3초 만에 전체 계약 검토를 마쳤으며, 이는 다음으로 빠른 Claude Opus 4.6의 40.4초와 비교해 매우 빠른 수치다.
정확성과 편향성을 최소화하기 위해 연구진은 독립적인 LLM 심사위원을 활용해 결과의 정확성, 논리성, 완결성을 평가했다. 위치 편향을 제거하기 위해 모든 비교는 순서를 뒤바꿔 2회씩 진행됐으며, 일관된 선호도 결과만을 승리로 간주했다. 또한 법률 전문가들이 심사위원의 평가 결과 표본을 검증해 전문적인 기준에 부합함을 확인했다. 이번 벤치마크는 모델 아키텍처와 시스템 통합이 파운데이션 모델 자체만큼이나 법률 AI의 신뢰성에 중요하다는 점을 입증했다.