AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기

법률 AI 성능, 모델보다 스캐폴드 설계가 좌우

법률 AI 성능, 모델보다 스캐폴드 설계가 좌우

Artificial Lawyer
2026년 6월 23일 (화)
  • •Legal Nodes 연구 결과, AI 모델의 실제 성능은 이를 둘러싼 스캐폴드 아키텍처에 크게 의존하는 것으로 나타났다.
  • •Claude Opus 4.8을 3가지 환경에서 평가한 결과, 워크플로 통합 방식에 따라 법률 작업 수행 능력이 크게 갈렸다.
  • •MikeOSS는 다른 법률 AI 스캐폴드 대비 작업당 비용을 60%에서 90%까지 절감하는 효율을 보였다.
  • •Legal Nodes 연구 결과, AI 모델의 실제 성능은 이를 둘러싼 스캐폴드 아키텍처에 크게 의존하는 것으로 나타났다.
  • •Claude Opus 4.8을 3가지 환경에서 평가한 결과, 워크플로 통합 방식에 따라 법률 작업 수행 능력이 크게 갈렸다.
  • •MikeOSS는 다른 법률 AI 스캐폴드 대비 작업당 비용을 60%에서 90%까지 절감하는 효율을 보였다.

법률 컨설팅 기업 Legal Nodes가 Claude Opus 4.8 모델을 활용해 수행한 연구에 따르면, 법률 AI의 성능은 모델 자체의 능력보다 이를 감싸는 소프트웨어 외피인 '스캐폴드(Scaffold)'에 크게 의존한다. 법률 AI 전문가인 네스터 두브네비치(Nestor Dubnevych)는 법률 데이터 출력 품질이 문맥 이해, 워크플로 로직, 프롬프트 정교화, 계획 수립, 에이전틱 AI 루프, 정보 검색 및 도구 호출 능력에 달려 있다고 설명했다. 연구팀은 데이터 보호 및 디지털 운영 복원력과 관련된 40가지 구체적인 작업을 선정해, Claude Chat, Cowork with Legal 플러그인, MikeOSS 등 세 가지 환경에서 모델의 성능을 비교했다.

이번 평가는 기초 모델의 벤치마크 점수에만 집중하는 업계 경향에 의문을 제기하기 위해 기획됐다. Legal Nodes 측은 기존 리더보드 점수만으로는 모델 자체의 품질과 스캐폴드 엔지니어링 중 무엇이 성능 차이를 유발하는지 불분명했다고 지적했다. 실제로 동일한 모델을 다양한 환경에서 테스트한 결과, 모델만 평가하는 방식은 법률 현장에서 AI의 유용성을 완벽하게 설명하지 못한다는 점이 확인됐다. 따라서 법률 팀에게는 산업 전반의 파인튜닝 결과를 기다리는 것보다, 기업 맞춤형 문맥 계층 구조를 정교화하는 것이 성능 개선을 위한 더 빠른 경로가 될 수 있다.

MikeOSS 개발자인 윌 첸(Will Chen)은 자사 플랫폼이 벤치마크에서 만족스러운 성과를 거뒀다고 밝혔다. 비록 절대적인 결과값은 Claude나 Cowork 환경보다 다소 낮았으나, 작업당 비용 측면에서 Cowork 대비 60%, Claude 대비 90% 저렴한 비용을 기록했다. 윌 첸은 향후 특화된 기술을 추가 통합해 개인정보 보호 및 규정 준수 자문 업무를 강화할 계획이다. 이러한 연구 결과는 토큰 비용이 상승함에 따라, 스캐폴드 엔지니어링의 효율성이 향후 법률 소프트웨어 선택 과정에서 핵심적인 영향력을 행사할 것임을 시사한다.

법률 컨설팅 기업 Legal Nodes가 Claude Opus 4.8 모델을 활용해 수행한 연구에 따르면, 법률 AI의 성능은 모델 자체의 능력보다 이를 감싸는 소프트웨어 외피인 '스캐폴드(Scaffold)'에 크게 의존한다. 법률 AI 전문가인 네스터 두브네비치(Nestor Dubnevych)는 법률 데이터 출력 품질이 문맥 이해, 워크플로 로직, 프롬프트 정교화, 계획 수립, 에이전틱 AI 루프, 정보 검색 및 도구 호출 능력에 달려 있다고 설명했다. 연구팀은 데이터 보호 및 디지털 운영 복원력과 관련된 40가지 구체적인 작업을 선정해, Claude Chat, Cowork with Legal 플러그인, MikeOSS 등 세 가지 환경에서 모델의 성능을 비교했다.

이번 평가는 기초 모델의 벤치마크 점수에만 집중하는 업계 경향에 의문을 제기하기 위해 기획됐다. Legal Nodes 측은 기존 리더보드 점수만으로는 모델 자체의 품질과 스캐폴드 엔지니어링 중 무엇이 성능 차이를 유발하는지 불분명했다고 지적했다. 실제로 동일한 모델을 다양한 환경에서 테스트한 결과, 모델만 평가하는 방식은 법률 현장에서 AI의 유용성을 완벽하게 설명하지 못한다는 점이 확인됐다. 따라서 법률 팀에게는 산업 전반의 파인튜닝 결과를 기다리는 것보다, 기업 맞춤형 문맥 계층 구조를 정교화하는 것이 성능 개선을 위한 더 빠른 경로가 될 수 있다.

MikeOSS 개발자인 윌 첸(Will Chen)은 자사 플랫폼이 벤치마크에서 만족스러운 성과를 거뒀다고 밝혔다. 비록 절대적인 결과값은 Claude나 Cowork 환경보다 다소 낮았으나, 작업당 비용 측면에서 Cowork 대비 60%, Claude 대비 90% 저렴한 비용을 기록했다. 윌 첸은 향후 특화된 기술을 추가 통합해 개인정보 보호 및 규정 준수 자문 업무를 강화할 계획이다. 이러한 연구 결과는 토큰 비용이 상승함에 따라, 스캐폴드 엔지니어링의 효율성이 향후 법률 소프트웨어 선택 과정에서 핵심적인 영향력을 행사할 것임을 시사한다.

원문 보기 (영어)·2026년 6월 22일
#legal ai#claude opus#mikeoss#scaffold engineering#benchmark#legal nodes#llm performance