법률 AI 벤치마크: 목적 특화형과 범용 모델의 대결
- •법률 AI 플랫폼 'Ivo'가 계약서 검토 벤치마크에서 'Claude for Word'를 앞서다
- •사람 변호사 4.56점, Ivo 4.52점, Claude 3.50점(10점 만점) 기록
- •범용 LLM이 전문적인 법률 판단과 맥락 파악에서 한계를 드러냄
생성형 AI의 역할을 두고 법률 기술 전문가들 사이에서는 범용 모델의 편리함과 특화 시스템의 정밀함이라는 두 가치가 팽팽하게 맞서고 있다. 최근 발표된 제3자 벤치마크 연구는 정확성과 전문적 지식을 모두 요구하는 계약서 검토 작업에서 각 도구가 어떤 성능을 보이는지 확인했다.
2026년 4월 통제된 환경에서 진행된 이번 실험은 실제 변호사와 범용 모델인 Claude for Word, 그리고 법률 특화 도구인 Ivo를 비교했다. 숙련된 기업 법무 변호사들로 구성된 평가단은 이슈 포착, 레드라이닝, 법률적 판단 등을 기준으로 결과를 채점했다. 사람 변호사가 10점 만점에 4.56점으로 1위를 차지했으나, Ivo 역시 4.52점으로 그 뒤를 바짝 추격하며 도메인 특화 설계의 유효성을 증명했다.
반면 Claude for Word는 3.50점에 그쳤다. 이는 범용 모델이 강력한 언어 엔진이기는 하나, 높은 이해관계가 얽힌 상업 계약에서 필요한 미묘한 판단을 내리는 데는 어려움을 겪을 수 있음을 시사한다. 조사 결과, 일반적인 AI는 텍스트 초안 작성에는 뛰어나지만 회사의 내부 규정이나 이전 계약의 맥락을 적용하는 법률 자동화 영역에서는 빈틈을 보였다.
이번 사례는 AI를 특정 전문 산업에 어떻게 특화할 수 있는지 보여주는 중요한 지표다. 법률 기술의 미래는 단순히 챗봇으로 변호사를 대체하는 것이 아니라, 내부 가이드라인과 특정 관할권의 제약 조건을 고려해 법률 데이터를 추론하는 정교한 시스템을 구축하는 데 있다.
평가진에 따르면 도구 간 성능 격차는 레드라이닝과 법률적 판단 능력에서 가장 크게 나타났다. 범용 언어 모델은 텍스트 요약에는 능숙하지만, 더 유리한 법적 입장을 제시하게 만드는 전문적인 논리 체계가 부족하다. 결국 법률 업계에서는 창의성보다는 기존 문서 워크플로우와 규제 표준에 통합되는 AI 도구가 훨씬 높은 가치를 지닐 것으로 보인다.