신뢰 잃은 AI 벤치마크, 측정 도구의 결함 발견
- •스탠퍼드 대학교(Stanford University) 연구진이 AI 벤치마크에서 5%의 오류율을 발견해 성능 순위의 부정확성을 지적했다.
- •통계적 신호와 LLM 판정관을 결합해 결함 있는 문제를 84% 정밀도로 식별하는 프레임워크를 개발했다.
- •벤치마크 오류를 수정한 결과, DeepSeek-R1의 GSM8K 순위가 최하위권에서 2위로 급반등했다.
AI 모델의 지능을 평가하는 경쟁이 갈수록 치열해지고 있지만, 정작 우리가 사용하는 측정 도구는 고장 난 상태라는 연구 결과가 나왔다. Stanford AI Lab(스탠퍼드 AI 연구소) 소속 연구진은 수학 문제 위주의 GSM8K를 포함한 주요 벤치마크에서 최대 5%의 오류율을 발견했다. 모호한 질문이나 잘못된 정답지, 경직된 채점 방식이 주요 원인으로 꼽혔다. 이러한 결함은 AI의 발전 속도를 추적하는 평가 지표의 신뢰성을 근본적으로 훼손한다. 특히 모델이 정답을 맞혔음에도 단순히 출력 형식이 다르다는 이유로 오답 처리되는 사례가 빈번해 실제 성능을 왜곡하고 있다. 이를 해결하기 위해 연구팀은 '측정 이론적 방법'을 적용한 새로운 프레임워크를 도입했다. 이는 여러 모델의 답변 패턴에서 나타나는 통계적 신호를 분석해 이상 징후를 포착하는 방식이다. 성능이 우수한 모델들이 특정 문제에서 일제히 틀릴 경우, 이를 결함 후보로 분류해 사람이 검토하도록 설계했다. LLM 판정관을 활용한 이 시스템은 '버그'가 섞인 질문을 84%의 정밀도로 찾아냈다. 심지어 스캔된 이미지를 잘못 읽어 정답 자체가 틀려버린 광학 문자 인식 (OCR) 오류까지 식별해냈다. 이는 기존 벤치마크 리더보드가 상당 부분 잘못된 데이터에 기반하고 있음을 시사한다. 실제 오류를 수정한 후의 파급력은 상당했다. 결함 있는 문제를 제거하자 DeepSeek-R1 모델은 GSM8K 리더보드에서 최하위권에서 2위로 순위가 수직 상승했다. 결국 모델의 겉보기 성능은 실제 역량만큼이나 벤치마크의 품질에 크게 좌우된다는 점이 증명된 셈이다. 연구진은 이제 AI의 발전을 투명하게 측정하기 위해 데이터셋을 끊임없이 관리하는 '지속적인 관리' 체계가 필요하다고 강조했다.