이 기사의 핵심 내용은?

GPT-5.5의 할루시네이션 비율은 86%로, MIT 라이선스의 GLM-5.2 모델(28%)보다 훨씬 높게 나타났다. DeepSeek V4 Pro는 GLM-5.2보다 10배 많은 추론 토큰을 소비하고도 복잡한 파이썬 설계 작업을 완수하지 못했다. 주요 AI 연구소들은 지능과 신뢰성 측면의 한계로 인해 대규모 매개변수 확장 전략에서 벗어나는 추세다.

대형 AI 모델, 갈수록 높아지는 할루시네이션 위험성

•GPT-5.5의 할루시네이션 비율은 86%로, MIT 라이선스의 GLM-5.2 모델(28%)보다 훨씬 높게 나타났다.
•DeepSeek V4 Pro는 GLM-5.2보다 10배 많은 추론 토큰을 소비하고도 복잡한 파이썬 설계 작업을 완수하지 못했다.
•주요 AI 연구소들은 지능과 신뢰성 측면의 한계로 인해 대규모 매개변수 확장 전략에서 벗어나는 추세다.

•GPT-5.5의 할루시네이션 비율은 86%로, MIT 라이선스의 GLM-5.2 모델(28%)보다 훨씬 높게 나타났다.
•DeepSeek V4 Pro는 GLM-5.2보다 10배 많은 추론 토큰을 소비하고도 복잡한 파이썬 설계 작업을 완수하지 못했다.
•주요 AI 연구소들은 지능과 신뢰성 측면의 한계로 인해 대규모 매개변수 확장 전략에서 벗어나는 추세다.

주요 AI 연구소들이 매개변수와 학습 데이터를 무작정 늘리는 규모 확장 전략의 실효성에 의문을 제기하고 있다. 대형 시스템의 성능 정체가 이어지는 가운데, 클로드 페이블 5(Claude Fable 5)가 출시 3일 만에 치명적인 보안 결함으로 미국 국가 안보 금지 조치를 받은 사례가 대표적이다. 최신 인공지능 분석 지표에 따르면, 753B 매개변수와 40B 활성 매개변수를 갖춘 오픈 웨이트 모델 GLM-5.2가 GPT-5.5나 Opus 4.8과 같은 1~2T 매개변수급 대형 독점 모델과 대등한 성능을 보이고 있다.

모델이 거짓 정보를 생성하는 할루시네이션 현상에서도 격차가 드러난다. AA-옴니시언스 벤치마크 테스트에서 GPT-5.5는 86%의 할루시네이션 비율을 기록했다. 반면 페이블 5는 48%, Opus 4.8은 36%, GLM-5.2는 28%의 비율을 보였다. 특히 1.6T 매개변수와 49B 활성 매개변수를 지닌 DeepSeek V4 Pro는 복잡한 기술 질문에 오답을 남발하며 94%의 할루시네이션 점수를 기록했다.

추론 과정의 비효율성 또한 문제로 지적된다. 파이썬 설계 과제에서 DeepSeek V4 Pro는 3분 52초 동안 7.7k 추론 토큰을 소모하고도 오답을 냈으나, GLM-5.2는 12초 만에 800 추론 토큰만을 사용하여 해당 과제의 기술적 불가능함을 정확히 파악했다. 이는 모델의 크기가 반드시 뛰어난 논리적 조정 능력이나 오류 판별력으로 이어지지 않음을 시사한다. 현재 업계는 성능, 불확실성 보정, 계산 효율성이라는 세 가지 난제에 직면해 있으며, 앞으로는 규모보다는 실제 정확성과 자원 활용 효율성이 모델 선택의 핵심이 될 전망이다.

주요 AI 연구소들이 매개변수와 학습 데이터를 무작정 늘리는 규모 확장 전략의 실효성에 의문을 제기하고 있다. 대형 시스템의 성능 정체가 이어지는 가운데, 클로드 페이블 5(Claude Fable 5)가 출시 3일 만에 치명적인 보안 결함으로 미국 국가 안보 금지 조치를 받은 사례가 대표적이다. 최신 인공지능 분석 지표에 따르면, 753B 매개변수와 40B 활성 매개변수를 갖춘 오픈 웨이트 모델 GLM-5.2가 GPT-5.5나 Opus 4.8과 같은 1~2T 매개변수급 대형 독점 모델과 대등한 성능을 보이고 있다.

모델이 거짓 정보를 생성하는 할루시네이션 현상에서도 격차가 드러난다. AA-옴니시언스 벤치마크 테스트에서 GPT-5.5는 86%의 할루시네이션 비율을 기록했다. 반면 페이블 5는 48%, Opus 4.8은 36%, GLM-5.2는 28%의 비율을 보였다. 특히 1.6T 매개변수와 49B 활성 매개변수를 지닌 DeepSeek V4 Pro는 복잡한 기술 질문에 오답을 남발하며 94%의 할루시네이션 점수를 기록했다.

추론 과정의 비효율성 또한 문제로 지적된다. 파이썬 설계 과제에서 DeepSeek V4 Pro는 3분 52초 동안 7.7k 추론 토큰을 소모하고도 오답을 냈으나, GLM-5.2는 12초 만에 800 추론 토큰만을 사용하여 해당 과제의 기술적 불가능함을 정확히 파악했다. 이는 모델의 크기가 반드시 뛰어난 논리적 조정 능력이나 오류 판별력으로 이어지지 않음을 시사한다. 현재 업계는 성능, 불확실성 보정, 계산 효율성이라는 세 가지 난제에 직면해 있으며, 앞으로는 규모보다는 실제 정확성과 자원 활용 효율성이 모델 선택의 핵심이 될 전망이다.