이 기사의 핵심 내용은?

MIT 연구진이 AI 모델 학습 도중 압축을 수행하는 기술인 CompreSSM을 공개했다. 이 기술을 통해 정확도를 유지하면서도 상태 공간 모델의 학습 속도를 4배까지 높일 수 있다. 모델의 불필요한 요소를 학습 중에 즉시 제거함으로써 기존의 사후 가지치기 방식이 가진 비효율성을 극복했다.

AI 학습 비용을 획기적으로 줄이는 새로운 방법

•MIT 연구진이 AI 모델 학습 도중 압축을 수행하는 기술인 CompreSSM을 공개했다.
•이 기술을 통해 정확도를 유지하면서도 상태 공간 모델의 학습 속도를 4배까지 높일 수 있다.
•모델의 불필요한 요소를 학습 중에 즉시 제거함으로써 기존의 사후 가지치기 방식이 가진 비효율성을 극복했다.

최첨단 AI 모델을 학습시키는 과정은 막대한 비용과 시간, 에너지를 소모하는 고된 작업이다. 과거에는 거대 모델을 먼저 학습시킨 뒤 나중에 크기를 줄이거나, 처음부터 작은 모델을 선택해 성능 저하를 감수해야 하는 양자택일의 상황에 놓이곤 했다. MIT 컴퓨터과학·인공지능연구소(CSAIL)와 막스 플랑크 연구소, Liquid AI 연구진은 이러한 제약을 해결할 혁신적인 접근법을 제시했다.

연구진이 선보인 CompreSSM은 학습 과정에 압축을 직접 통합하는 새로운 패러다임을 제안한다. 이 방법은 오디오나 텍스트 같은 순차 데이터를 처리하는 상태 공간 모델에 초점을 맞추며, 제어 이론의 수학적 도구를 활용한다. 학습 도중 모델 내부 상태를 분석해 성능에 필수적인 요소와 불필요한 '데드 웨이트'를 구분하며, 학습 완료를 기다리지 않고 즉시 불필요한 부분을 제거해 후반 학습 효율을 극대화한다.

핵심은 모델 내부의 중요도가 학습 초기인 10% 시점에서 이미 안정화된다는 사실을 발견한 것이다. 연구진은 각 구성 요소의 기여도를 계산하는 '한켈 특이값' 지표를 활용해 중요도가 낮은 차원을 안전하게 제거한다. 그 결과 CIFAR-10과 같은 표준 벤치마크에서 기존 대형 모델과 거의 동일한 정확도를 유지하면서도, Mamba 아키텍처 기준 약 4배의 속도 향상을 입증했다.

이 방식은 먼저 거대 모델을 학습시켜야 하는 지식 증류나, 학습 이후 파라미터를 덜어내는 전통적인 가지치기보다 훨씬 효율적이다. CompreSSM은 동적으로 압축 여부를 결정하기 때문에 자원 낭비를 방지하며, 성능 저하 발생 시 이전 체크포인트로 되돌릴 수 있는 안전장치도 갖췄다. 덕분에 엔지니어는 고정된 기준에 의존하지 않고 각자의 필요에 따라 속도와 정확도의 균형을 주도적으로 결정할 수 있다.

현재 이 기술은 특정 아키텍처에 집중되어 있으나, 연구진은 범용성을 넓히는 연구를 이어가고 있다. 이들은 선형 어텐션 메커니즘을 사용하는 행렬 기반 동적 시스템까지 이 방법론을 확장할 수 있을 것으로 내다본다. 결과적으로 모델이 스스로 효율적인 구조를 발견하게 함으로써, AI 개발을 더욱 빠르고 지속 가능한 영역으로 이끌고 있다.

최첨단 AI 모델을 학습시키는 과정은 막대한 비용과 시간, 에너지를 소모하는 고된 작업이다. 과거에는 거대 모델을 먼저 학습시킨 뒤 나중에 크기를 줄이거나, 처음부터 작은 모델을 선택해 성능 저하를 감수해야 하는 양자택일의 상황에 놓이곤 했다. MIT 컴퓨터과학·인공지능연구소(CSAIL)와 막스 플랑크 연구소, Liquid AI 연구진은 이러한 제약을 해결할 혁신적인 접근법을 제시했다.

연구진이 선보인 CompreSSM은 학습 과정에 압축을 직접 통합하는 새로운 패러다임을 제안한다. 이 방법은 오디오나 텍스트 같은 순차 데이터를 처리하는 상태 공간 모델에 초점을 맞추며, 제어 이론의 수학적 도구를 활용한다. 학습 도중 모델 내부 상태를 분석해 성능에 필수적인 요소와 불필요한 '데드 웨이트'를 구분하며, 학습 완료를 기다리지 않고 즉시 불필요한 부분을 제거해 후반 학습 효율을 극대화한다.

핵심은 모델 내부의 중요도가 학습 초기인 10% 시점에서 이미 안정화된다는 사실을 발견한 것이다. 연구진은 각 구성 요소의 기여도를 계산하는 '한켈 특이값' 지표를 활용해 중요도가 낮은 차원을 안전하게 제거한다. 그 결과 CIFAR-10과 같은 표준 벤치마크에서 기존 대형 모델과 거의 동일한 정확도를 유지하면서도, Mamba 아키텍처 기준 약 4배의 속도 향상을 입증했다.

이 방식은 먼저 거대 모델을 학습시켜야 하는 지식 증류나, 학습 이후 파라미터를 덜어내는 전통적인 가지치기보다 훨씬 효율적이다. CompreSSM은 동적으로 압축 여부를 결정하기 때문에 자원 낭비를 방지하며, 성능 저하 발생 시 이전 체크포인트로 되돌릴 수 있는 안전장치도 갖췄다. 덕분에 엔지니어는 고정된 기준에 의존하지 않고 각자의 필요에 따라 속도와 정확도의 균형을 주도적으로 결정할 수 있다.

현재 이 기술은 특정 아키텍처에 집중되어 있으나, 연구진은 범용성을 넓히는 연구를 이어가고 있다. 이들은 선형 어텐션 메커니즘을 사용하는 행렬 기반 동적 시스템까지 이 방법론을 확장할 수 있을 것으로 내다본다. 결과적으로 모델이 스스로 효율적인 구조를 발견하게 함으로써, AI 개발을 더욱 빠르고 지속 가능한 영역으로 이끌고 있다.