소형 언어 모델의 임베딩 붕괴 해결을 위한 디스퍼션 로스
chenliu-1996.github.io
2026년 7월 5일 (일)
- •연구진은 소형 언어 모델에서 토큰 임베딩이 좁은 각도 공간으로 뭉치는 '임베딩 응축' 현상을 발견했다.
- •ICML 2026 논문에 따르면 소형 모델일수록 대형 모델보다 임베딩 붕괴가 심각해 표현력이 제한된다.
- •연구팀은 학습 과정에서 토큰 표현이 균일하게 분산되도록 유도하는 '디스퍼션 로스'를 개발했다.
ICML(국제 머신러닝 학회) 2026에서 연구진은 소형 언어 모델에서 '임베딩 응축'이라 불리는 기하학적 현상을 발표했다. 이는 토큰 임베딩이 트랜스포머 층을 통과하며 좁은 원뿔 형태의 부분 공간으로 붕괴하는 현상으로, 모델 규모가 작을수록 더욱 두드러지게 나타난다. 첸 리우(Chen Liu)를 포함한 연구팀은 이러한 응축이 모델 초기화 단계에서 발생하며 입력 데이터셋과 관계없이 지속되고, 지식 증류로도 해결되지 않아 대형 모델이 구조적으로 이러한 붕괴를 방어함을 확인했다.
이를 해결하기 위해 연구팀은 디스퍼션 로스라는 학습 목표를 제안했다. 이 방법은 토큰 임베딩 쌍을 단위 초구상에서 균일하게 분산시켜 매개변수 수를 늘리지 않고도 소형 모델의 표현 품질을 향상시킨다. GPT-2와 유사한 구조에서 MLP 차원만 변경하며 실험한 결과, 디스퍼션 로스가 사전 학습 및 중간 학습 단계에서 응축을 완화할 수 있음을 확인했으나 성능 개선폭은 제한적이며 정교한 통계적 검증이 필요하다고 밝혔다.
이번 연구는 잠재 표현의 내부 기하학적 구조가 성능에 결정적인 역할을 하며, 모델 크기만으로 성능 격차를 설명할 수 없음을 시사한다. 2025년 4월 초부터 진행된 이 프로젝트는 트랜스포머 층 쌓기에 관한 이론적 연구와 이미지 생성 분야의 정규화 연구를 기반으로 한다. 연구팀은 향후 더욱 정교한 정규화 기법을 개발하고 미세 조정 및 강화학습 과정에서의 응축 현상을 분석하는 등 임베딩 붕괴에 내재적으로 저항하는 아키텍처 연구를 제안했다.