DeepResearchEval, AI 연구 평가 체계의 자동화 실현
- •인피니티 랩은 복잡한 연구 과제 생성과 AI 에이전트의 평가 과정을 자동화하는 DeepResearchEval 프레임워크를 새롭게 공개했다.
- •해당 시스템은 페르소나 기반 파이프라인과 능동형 팩트 체크를 활용해 인용 자료가 없어도 보고서의 정확성을 정밀하게 검증한다.
- •단순 정보 검색이 아닌 다각도의 증거 통합이 필요한 고난도 과제를 생성함으로써 차세대 AI 연구 모델의 확장 가능한 벤치마킹을 지원한다.
최근 웹 검색과 다중 소스 정보 합성을 수행하는 심층 연구(Deep Research) 시스템이 발전함에 따라, 이러한 시스템의 실질적인 성능을 측정하는 일이 중요한 과제로 부상하고 있다. 그러나 실제 상황에 부합하는 테스트 케이스를 구축하기 위해서는 통상적으로 막대한 인적 자원과 시간이 소요된다는 한계가 존재해 왔다. 이에 따라 인피니티 랩(Infinity Lab)의 주요 연구원이자 이 프로젝트를 이끈 왕이보(Yibo Wang) 연구진은 평가 공정을 근본적으로 자동화할 수 있는 'DeepResearchEval' 프레임워크를 설계했다. 이 시스템은 다양한 사용자 프로필을 시뮬레이션하는 '페르소나 중심' 파이프라인을 활용해 실제 연구 환경에서 발생할 수 있는 복잡한 과제를 동적으로 생성해낸다.
특히 DeepResearchEval은 단순히 기존 정보를 검색하여 나열하는 수준의 낮은 난이도 과제를 철저히 배제한다. 시스템 내부에 탑재된 정교한 필터링 엔진은 여러 출처의 증거를 하나로 통합하거나 복합적인 외부 웹 검색이 반드시 수반되어야 하는 고난도 과제만을 선별하여 평가에 활용한다. 또한 평가는 고정된 규칙이 아닌 자율적으로 판단하고 행동하는 에이전트(Agentic) 파이프라인을 통해 수행된다. 실제로 연구팀은 각 과제의 고유한 특성에 맞춰 개별적인 채점 기준을 수립하는 '적응형 포인트 기반 품질 평가(Adaptive Point-wise Quality Evaluation)' 기법을 도입하여 평가의 정밀도와 유연성을 동시에 확보했다.
이와 더불어 DeepResearchEval은 연구 보고서의 신뢰성을 확보하기 위해 '능동형 팩트 체크' 기능을 핵심적으로 운영한다. 이 기능은 보고서 내에 명시적인 인용 정보가 포함되어 있지 않더라도 시스템이 스스로 웹을 탐색하며 주장의 진위 여부를 독립적으로 검증하는 기술을 의미한다. 다만 기존의 수동 평가 방식과 비교했을 때 인적 개입을 최소화하면서도 훨씬 빠르고 객관적인 벤치마킹 수치를 산출할 수 있다는 점이 특징이다. 한편 이러한 자동화된 접근 방식은 AI 에이전트 기술의 발전에 따라 발생하는 방대한 평가 수요를 효과적으로 감당할 수 있게 해준다.
결과적으로 DeepResearchEval은 지속적인 인간의 개입이나 감독 없이도 고도화된 연구용 대규모 언어 모델(LLM)을 개발하고 개선할 수 있는 혁신적인 환경을 제공한다. 또한 동적으로 조정되는 평가 표준과 자율적인 팩트 체크 메커니즘을 결합함으로써 차세대 인공지능 시스템의 신뢰성을 한층 더 높일 수 있는 계기를 마련했다. 또한 연구진은 이 프레임워크를 통해 복잡한 추론과 도구 활용 능력을 갖춘 AI 에이전트의 성능을 보다 정량적으로 비교할 수 있는 표준을 수립했다. 이러한 기술적 진보는 향후 지식 집약적인 산업 분야에서 AI의 실질적인 활용도를 넓히는 데 크게 기여할 것으로 전망된다.