이 기사의 핵심 내용은?

스탠퍼드 대학교(Stanford University) 연구진이 AI 벤치마크에서 5%의 오류율을 발견해 성능 순위의 부정확성을 지적했다. 통계적 신호와 LLM 판정관을 결합해 결함 있는 문제를 84% 정밀도로 식별하는 프레임워크를 개발했다. 벤치마크 오류를 수정한 결과, DeepSeek-R1의 GSM8K 순위가 최하위권에서 2위로 급반등했다.

신뢰 잃은 AI 벤치마크, 측정 도구의 결함 발견

•스탠퍼드 대학교(Stanford University) 연구진이 AI 벤치마크에서 5%의 오류율을 발견해 성능 순위의 부정확성을 지적했다.
•통계적 신호와 LLM 판정관을 결합해 결함 있는 문제를 84% 정밀도로 식별하는 프레임워크를 개발했다.
•벤치마크 오류를 수정한 결과, DeepSeek-R1의 GSM8K 순위가 최하위권에서 2위로 급반등했다.

AI 모델의 지능을 평가하는 경쟁이 갈수록 치열해지고 있지만, 정작 우리가 사용하는 측정 도구는 고장 난 상태라는 연구 결과가 나왔다. Stanford AI Lab(스탠퍼드 AI 연구소) 소속 연구진은 수학 문제 위주의 GSM8K를 포함한 주요 벤치마크에서 최대 5%의 오류율을 발견했다. 모호한 질문이나 잘못된 정답지, 경직된 채점 방식이 주요 원인으로 꼽혔다. 이러한 결함은 AI의 발전 속도를 추적하는 평가 지표의 신뢰성을 근본적으로 훼손한다. 특히 모델이 정답을 맞혔음에도 단순히 출력 형식이 다르다는 이유로 오답 처리되는 사례가 빈번해 실제 성능을 왜곡하고 있다. 이를 해결하기 위해 연구팀은 '측정 이론적 방법'을 적용한 새로운 프레임워크를 도입했다. 이는 여러 모델의 답변 패턴에서 나타나는 통계적 신호를 분석해 이상 징후를 포착하는 방식이다. 성능이 우수한 모델들이 특정 문제에서 일제히 틀릴 경우, 이를 결함 후보로 분류해 사람이 검토하도록 설계했다. LLM 판정관을 활용한 이 시스템은 '버그'가 섞인 질문을 84%의 정밀도로 찾아냈다. 심지어 스캔된 이미지를 잘못 읽어 정답 자체가 틀려버린 광학 문자 인식 (OCR) 오류까지 식별해냈다. 이는 기존 벤치마크 리더보드가 상당 부분 잘못된 데이터에 기반하고 있음을 시사한다. 실제 오류를 수정한 후의 파급력은 상당했다. 결함 있는 문제를 제거하자 DeepSeek-R1 모델은 GSM8K 리더보드에서 최하위권에서 2위로 순위가 수직 상승했다. 결국 모델의 겉보기 성능은 실제 역량만큼이나 벤치마크의 품질에 크게 좌우된다는 점이 증명된 셈이다. 연구진은 이제 AI의 발전을 투명하게 측정하기 위해 데이터셋을 끊임없이 관리하는 '지속적인 관리' 체계가 필요하다고 강조했다.

인공지능(AI)이 얼마나 똑똑한지 알아보는 경쟁이 뜨겁지만, 정작 인공지능이 치는 '시험지' 자체가 고장 났다는 연구 결과가 나왔어요. 미국의 스탠퍼드 대학교 연구팀은 인공지능 수학 시험지(GSM8K)를 조사해보니, 문제 100개 중 5개 정도가 틀려 있었다(오류율)는 사실을 알아냈습니다. 질문이 헷갈리게 적혀 있거나 정답 자체가 틀린 경우도 있었고, 채점 방식이 너무 까다로웠던 것이 문제였어요. 특히 인공지능이 정답을 맞혔는데도, 단순히 답을 적는 형식(출력 형식)이 미리 정해둔 것과 다르다는 이유로 오답 처리를 하는 바람에 인공지능의 진짜 실력을 제대로 알 수 없게 된 거예요.

이를 해결하기 위해 연구팀은 잘못된 문제를 찾아내는 새로운 도구(프레임워크)를 만들었어요. 이 시스템은 여러 인공지능이 낸 답의 패턴을 분석해 이상한 점을 찾아내요. 실력이 좋은 인공지능들이 유독 어떤 한 문제만 다 같이 틀린다면, 그 문제가 잘못되었을 가능성이 높다고 보고 사람이 다시 확인하는 방식이죠. 또 다른 똑똑한 인공지능을 심사위원(LLM 판정관)으로 세워 문제를 검사했더니, 잘못된 문제를 84%나 정확하게 찾아냈어요. 심지어 기계가 종이의 글자를 읽을 때(광학 문자 인식, OCR) 실수해서 정답이 틀려버린 경우까지 찾아냈답니다. 이것은 지금껏 우리가 믿어온 인공지능 성적표(리더보드)가 잘못된 자료를 바탕으로 만들어졌을 수 있다는 걸 뜻해요.

실제로 잘못된 문제를 빼고 다시 채점을 해보니 결과가 엄청나게 바뀌었어요. 원래는 꼴찌 수준이었던 'DeepSeek-R1'이라는 인공지능의 수학 성적 순위가 단숨에 2위로 뛰어올랐거든요. 결국 인공지능의 겉보기 성적은 그 인공지능의 실력만큼이나 시험 문제가 얼마나 정확한지에 따라 크게 달라진다는 것이 증명된 셈이에요. 연구팀은 인공지능의 발전을 정직하게 확인하려면 시험 문제들을 끊임없이 보살피는 '지속적인 관리' 체계가 꼭 필요하다고 강조했습니다.