양자 텐서 네트워크로 AI 모델 90% 압축
- •텐서 네트워크 기술을 활용해 Llama 2 7B 모델을 90% 압축하며 메모리 요구량을 27GB에서 2GB로 절감했다.
- •양자 역학에서 영감을 얻은 압축 기법을 통해 Llama 3.1의 긴 답변 생성 시 에너지 소비량을 40% 줄였다.
- •신경망을 완전히 우회하는 새로운 아키텍처는 최적화 과정 없이도 기존 대비 100배 빠른 학습 속도를 기록했다.
물리학자들이 전자 간의 상호작용을 설명하기 위해 고안된 수학적 도구인 '텐서 네트워크'를 활용해 AI의 고질적인 문제인 '차원의 저주' 해결에 나섰다. 모델이 비대해짐에 따라 발생하는 비효율을 막기 위해, 거대한 데이터 배열인 텐서를 더 작고 관리하기 쉬운 부분들로 분해하는 방식이다. 이는 기존의 프루닝이나 양자화와 같은 기법과는 차별화되며, 모델의 정확도를 유지하면서도 수학적 근거에 기반해 불필요한 중복을 효과적으로 제거한다.
특히 스페인의 스타트업 멀티버스 컴퓨팅(Multiverse Computing)이 발표한 결과는 매우 고무적이다. 이들이 개발한 'CompactifAI' 기술은 Llama 2 7B 모델의 크기를 90% 이상 줄여 메모리 사용량을 27GB에서 단 2GB로 낮췄다. 이러한 압축 기술 덕분에 대규모 언어 모델(LLM)을 인터넷 연결 없이도 스마트폰이나 가전제품에서 로컬로 실행할 수 있게 되었다. 또한 전력 효율 면에서도 큰 진전을 보여, Llama 3.1 모델 운영 시 전력 소비를 최대 40%까지 줄이는 성과를 거두었다.
이에 따라 연구자들은 신경망 아키텍처를 완전히 대체할 수 있는 텐서 네트워크 기반의 AI 구축을 제안하고 있다. 이 방식은 막대한 에너지를 소모하는 경사 하강법 기반의 느린 최적화 과정을 우회하기 때문에 단 몇 초 만에 학습을 마칠 수 있다. 실제로 한 실험에서는 텐서 네트워크 모델이 기존 신경망보다 100배 빠른 학습 속도를 기록하기도 했으며, 이는 내부 작동 원리를 이해하기 쉽고 구축 비용도 저렴한 투명한 '화이트박스' AI의 시대를 예고한다.