이 기사의 핵심 내용은?

새로운 TLT 시스템은 유휴 프로세서를 활용해 추론 모델의 학습 속도를 두 배로 높인다. 적응형 초안 모델이 LLM 출력을 예측하여 강화 학습 과정의 연산 부하를 줄여준다. 이 방식은 모델의 정확도를 유지하면서도 학습 속도를 70%에서 최대 210%까지 향상시킨다.

MIT 연구진, 유휴 연산 활용해 LLM 학습 속도 2배 가속

•새로운 TLT 시스템은 유휴 프로세서를 활용해 추론 모델의 학습 속도를 두 배로 높인다.
•적응형 초안 모델이 LLM 출력을 예측하여 강화 학습 과정의 연산 부하를 줄여준다.
•이 방식은 모델의 정확도를 유지하면서도 학습 속도를 70%에서 최대 210%까지 향상시킨다.

단계별 계획을 세우거나 복잡한 수학 문제를 해결하는 고성능 추론 모델의 학습에는 막대한 에너지가 소모된다. 최근 송 한(Song Han) MIT 교수가 이끄는 연구팀은 유휴 하드웨어라는 고질적인 병목 현상을 해결하기 위해 'TLT(Taming the Long Tail)' 시스템을 도입했다. 학습 과정에서 일부 프로세서가 작업을 먼저 마치고 나머지 느린 단위가 작업을 끝내길 기다리며 연산 능력을 낭비하는 문제를 공략한 것이다.

TLT는 이러한 유휴 시간을 활용해 경량화된 '초안(drafter)' 모델을 실시간으로 학습시킨다. 이 작은 모델은 거대 추론 모델이 다음에 내놓을 답변을 미리 예측하는 역할을 수행한다. 본 모델은 답변의 모든 단어를 처음부터 생성하는 대신, 초안 모델이 제안한 내용을 묶음 단위로 빠르게 검증하기만 하면 된다. 투기적 디코딩이라 불리는 이 기술은 모델이 시행착오를 통해 배우는 강화 학습의 '롤아웃(rollout)' 단계를 비약적으로 가속한다.

실제 테스트 결과, 이 적응형 접근 방식은 정확도 손실 없이 학습 속도를 최대 210%까지 끌어올렸다. 특히 초안 작성 과정을 동적으로 구성하여 학습이 진행됨에 따라 진화하는 본 모델과 항상 일관성을 유지하도록 설계했다. 무엇보다 이번 성과는 차세대 고지능 AI 개발에 필요한 막대한 비용과 탄소 배출량을 동시에 줄이는 획기적인 전환점이 될 것으로 전망된다.

단계별 계획을 세우거나 복잡한 수학 문제를 해결하는 고성능 추론 모델의 학습에는 막대한 에너지가 소모된다. 최근 송 한(Song Han) MIT 교수가 이끄는 연구팀은 유휴 하드웨어라는 고질적인 병목 현상을 해결하기 위해 'TLT(Taming the Long Tail)' 시스템을 도입했다. 학습 과정에서 일부 프로세서가 작업을 먼저 마치고 나머지 느린 단위가 작업을 끝내길 기다리며 연산 능력을 낭비하는 문제를 공략한 것이다.

TLT는 이러한 유휴 시간을 활용해 경량화된 '초안(drafter)' 모델을 실시간으로 학습시킨다. 이 작은 모델은 거대 추론 모델이 다음에 내놓을 답변을 미리 예측하는 역할을 수행한다. 본 모델은 답변의 모든 단어를 처음부터 생성하는 대신, 초안 모델이 제안한 내용을 묶음 단위로 빠르게 검증하기만 하면 된다. 투기적 디코딩이라 불리는 이 기술은 모델이 시행착오를 통해 배우는 강화 학습의 '롤아웃(rollout)' 단계를 비약적으로 가속한다.

실제 테스트 결과, 이 적응형 접근 방식은 정확도 손실 없이 학습 속도를 최대 210%까지 끌어올렸다. 특히 초안 작성 과정을 동적으로 구성하여 학습이 진행됨에 따라 진화하는 본 모델과 항상 일관성을 유지하도록 설계했다. 무엇보다 이번 성과는 차세대 고지능 AI 개발에 필요한 막대한 비용과 탄소 배출량을 동시에 줄이는 획기적인 전환점이 될 것으로 전망된다.