평균의 함정: MIT, AI 성능 측정의 위험성 경고
MIT AI News
2026년 1월 25일 (일)
- •MIT 연구진, 높은 평균 성능 지표가 특정 환자군에서의 모델 실패를 은폐할 수 있음을 발견
- •가짜 상관관계로 인해 높은 훈련 점수에도 불구하고 새로운 데이터의 최대 75%에서 성능 저하 발생
- •새로운 OODSelect 알고리즘으로 모델의 정확도가 무너지는 특정 데이터 하위 집단 식별
MIT 연구진이 인공지능 분야의 숨겨진 위험인 '과도하게 통합된 평가 지표'에 대한 경고를 울렸다. 진단 모델이 거대한 통합 데이터셋에서는 매우 정확해 보일 수 있다. 하지만 Laboratory for Information and Decision Systems (LIDS)(정보 및 의사결정 시스템 연구소)의 최신 연구는 이것이 위험한 착각일 수 있음을 증명했다. 연구에 따르면 한 병원에서 '최고'로 평가받은 모델이 다른 임상 환경에서는 환자의 최대 75%에게 최악의 성능을 보일 수 있었다. 이는 시스템이 '가짜 상관관계'에 의존하기 때문이다. 질병의 실제 해부학적 징후를 찾는 대신, 특정 병원 이미지의 마킹과 같은 무관한 특징을 진단과 연결하는 지름길을 택한 결과다. 모델의 성능이 데이터 환경에 따라 널뛰는 셈이다. 이러한 문제를 해결하기 위해 연구팀은 모델이 실패하는 특정 하위 집단을 정밀하게 찾아내는 'OODSelect' 알고리즘을 개발했다. 상위권 모델이 어디서나 효과적일 것이라는 막연한 가정을 버려야 할 때다. 그래야만 시스템이 실제 환경에 얼마나 잘 적응하는지, 즉 일반화 능력을 제대로 측정할 수 있다. 이번 연구는 AI 안전성 확보를 위해 필수적이다. 의료 결정이 우연한 데이터 패턴이 아닌 견고한 의학적 근거에 기반하도록 보장하기 때문이다.