Claude Opus 4.6, 환각 현상 측정 결과 하락
- •최근 BridgeBench 평가에서 Claude Opus 4.6의 환각 억제 정확도가 68%로 하락했다.
- •이전 버전의 83% 기록 대비 성능이 크게 저하되어 주요 LLM의 안정성 문제가 드러났다.
거대언어모델(LLM)이 급격히 진화하는 모습은 마치 고위험의 의자 앉기 게임과 유사하다. 연구자들이 한 가지 취약점을 해결했다고 생각하는 순간, 다른 능력이나 제약 조건이 예기치 않게 변화하며 복잡한 아키텍처를 훈련하는 과정의 내재적 변동성을 보여준다. 최근 Claude Opus 4.6에 관한 결과는 이러한 현실을 반영하는데, 해당 모델의 BridgeBench 환각 테스트 점수가 83%에서 68%로 급락했다는 사실은 일관성이 여전히 해결하기 어려운 과제임을 입증한다.
생성형 AI 환경에서 환각은 시스템이 사실과 다르거나 의미 없는 정보를 확신에 찬 어조로 생성하는 현상을 의미한다. 이는 AI 도구가 학문적 혹은 전문적 영역에서 신뢰할 수 있는 보조 도구로 거듭나는 데 가장 큰 걸림돌이다. BridgeBench 지표는 모델의 진실 판별 능력을 측정하기 위해 설계되었으며, 이번 두 자릿수 하락은 개발자와 사용자 모두에게 중요한 신호를 보낸다.
모델이 업데이트 이후 특정 작업에서 오히려 성능이 떨어지는 이유는 무엇일까? 이는 대개 'Catastrophic Forgetting'이라고 불리는 현상이나 시스템 재조정 과정에서 발생하는 의도치 않은 부작용으로 설명할 수 있다. 엔지니어가 코딩 능력이나 응답 속도를 개선하기 위해 모델을 최적화할 때, 기존에 학습된 가중치와 편향의 섬세한 균형이 무너질 위험이 있다.
이는 AI를 연구나 글쓰기 보조로 활용하는 학생들에게 중요한 경각심을 준다. AI는 정적인 진실 저장소가 아니며, 지속적으로 재조정되는 확률적 엔진이기에 버전 업데이트마다 신뢰도가 달라질 수 있다. 83%와 68% 사이의 격차는 단순한 수치 차이가 아니라 일상적인 학습 과정에서 부정확한 정보를 마주할 빈도가 유의미하게 변했음을 의미한다.
업계는 여전히 이러한 시스템의 내부 복잡성과 씨름하고 있다. 모델 구축 방식은 알지만, 매개변수 조정이 전체 아키텍처에 미칠 영향을 완벽히 예측하기는 여전히 어렵다. AI가 지적 생활에 깊숙이 통합될수록 BridgeBench와 같은 벤치마크는 중요한 안전장치 역할을 하며, 더 새로운 기술이 항상 더 똑똑하거나 정확하지는 않다는 점을 일깨워준다. 회의적인 시각을 유지하는 것은 오늘날 학생들에게 가장 가치 있는 디지털 역량이다.