MIT, '컨셉 보틀넥' 개선으로 AI 설명 가능성 강화
MIT AI News
2026년 3월 10일 (화)
- •AI의 예측 근거를 일상적인 언어로 설명하는 MIT의 새로운 기술 공개
- •희소 오토인코더(SAE)와 멀티모달 LLM을 결합해 인간이 이해 가능한 개념 추출
- •높은 정확도를 유지하면서 보안이 중요한 분야의 정보 누출 문제 해결
의료 센터나 자율주행차와 같이 안전이 직결되는 환경에서는 AI 모델이 특정 예측을 내린 이유를 파악하는 것이 무엇보다 중요하다. 이에 따라 MIT 연구진은 컴퓨터 비전 모델의 내부 작동 원리를 분석하기 위해 기존 컨셉 보틀넥 모델을 획기적으로 개선한 접근 방식을 개발했다. 일반적으로 이러한 시스템은 피부 병변을 진단할 때 '갈색 점'과 같은 인간이 정의한 개념을 먼저 식별하도록 모델에 강제한 뒤 최종 판단을 내리게 하는 구조를 가진다.
하지만 사람이 정의한 개념만으로는 모델이 실제로 포착하는 미세한 차이를 모두 담아내기 어렵다는 한계가 있었다. 그 결과 예측 정확도가 떨어지거나, 모델이 성능을 높이기 위해 사용자 몰래 숨겨진 데이터를 임의로 활용하는 정보 누출 현상이 발생하기도 했다. MIT 연구진은 이를 해결하고자 희소 오토인코더(SAE)라는 특수 도구를 도입했다. 이 도구는 모델이 훈련 과정에서 이미 스스로 학습한 구체적인 특징들을 직접 식별해 내는 역할을 수행한다.
특히 이렇게 추출된 특징들을 멀티모달 LLM과 결합하여 복잡한 수학적 패턴을 인간이 직접 검증할 수 있는 일상 언어로 번역하는 데 성공했다. 이러한 병목 구조는 모델이 예측 시 소수의 관련 개념만을 사용하도록 제한하며, 덕분에 AI의 설명은 더욱 간결하고 명확해진다. 비록 해석이 불가능한 블랙박스 모델에 비해 약간의 성능 차이는 존재하지만, 연구 결과는 책임감 있고 신뢰할 수 있는 인공지능을 향한 중요한 도약으로 평가받는다.