모터스포츠 원리로 완성한 효율적인 온디바이스 AI
- •모터스포츠의 구조 최적화 원리를 활용하여 대규모 언어 모델(LLM) 가중치 양자화 프레임워크 개발
- •32B 규모 모델을 61GB에서 18GB로 압축하여 저사양 하드웨어에서도 구동 가능
- •에너지 효율 평가를 위한 '와트당 지능' 및 '디지털 안전 계수' 지표 도입
모터스포츠의 세계에서는 아주 작은 무게 차이가 승패를 결정한다. 엔지니어들은 차체 구조의 강성을 유지하면서도 불필요한 무게를 덜어내는 치열한 균형 잡기를 수행한다. 놀랍게도 이러한 기계 공학적 접근 방식은 중앙 데이터 센터 외부의 기기에서 작동하는 온디바이스 AI를 최적화하는 과정과 수학적으로 깊은 연관이 있다.
네이처에 발표된 최근 연구는 이 두 분야를 잇는 새로운 방법론을 제시한다. 대규모 언어 모델을 현장 장치에 탑재할 때 발생하는 제약은 물리적 구조 설계와 흡사하다. 구조물의 하중 지지력을 계산하는 '강성 행렬'이 존재하듯, 신경망에는 모델 성능의 핵심이 되는 가중치를 파악하는 '손실 헤시안(Loss Hessian)'이라는 수학적 구조가 존재한다.
연구진은 신경망의 수치 정밀도를 낮추는 양자화 과정을 일종의 '디지털 경량화'로 정의했다. 이를 위해 신경망 내부의 중요 연결을 감지하는 최적화 기법을 적용했다. 결과적으로 모델의 지능은 유지하면서도 연산 부담을 비약적으로 줄이는 데 성공했다.
연구팀은 32B급 모델에 이 프레임워크를 적용하여 메모리 점유율을 61GB에서 18GB로 대폭 낮췄다. 그 결과, 초당 토큰 처리 속도는 26개에서 70개 수준으로 상승했고 소비 전력은 295W에서 165W로 절반 가까이 감소했다. 이는 고대역폭 클라우드 연결 없이도 고성능 AI를 기기 자체에서 구동할 수 있는 가능성을 열어주었다.
또한 이번 연구는 공학적 평가를 위한 새로운 지표를 제안한다. 모델 압축의 한계를 제시하는 '디지털 안전 계수'와 배터리 효율 중심의 '와트당 지능' 개념이다. 이는 GPTQ나 AWQ와 같은 기존 기법을 더 효과적으로 활용하는 방법론으로서, 온디바이스 AI의 표준을 제시한다는 점에서 의미가 크다.