이 기사의 핵심 내용은?

Sakana AI와 NVIDIA가 희소 모델을 위한 새로운 포맷인 TwELL을 공동 발표했다. TwELL은 사용자 정의 CUDA 커널을 활용하여 토큰 경로를 동적으로 지정하고 메모리 효율을 극대화한다. 벤치마크 결과, 10억 개 이상의 파라미터를 가진 모델에서 속도가 20% 이상 향상되고 메모리 사용량이 감소했다.

Sakana AI, 새로운 희소 LLM 학습 포맷 'TwELL' 공개

•Sakana AI와 NVIDIA가 희소 모델을 위한 새로운 포맷인 TwELL을 공동 발표했다.
•TwELL은 사용자 정의 CUDA 커널을 활용하여 토큰 경로를 동적으로 지정하고 메모리 효율을 극대화한다.
•벤치마크 결과, 10억 개 이상의 파라미터를 가진 모델에서 속도가 20% 이상 향상되고 메모리 사용량이 감소했다.

이번에 발표된 TwELL(Tile-wise ELLPACK)은 희소 아키텍처(Sparse architecture)를 사용하는 거대언어모델(LLM)을 최적화하기 위한 새로운 기술적 접근 방식이다. 희소 모델이란 전체 신경망 중 입력 데이터에 따라 일부 활성화된 뉴런만 사용하는 모델을 의미한다. 현대 LLM은 기본적으로 이러한 희소성을 내재하고 있지만, 표준 하드웨어는 이로 인해 발생하는 불규칙한 메모리 접근 패턴을 처리하는 데 어려움을 겪어왔다.

이러한 하드웨어의 한계를 극복하기 위해 연구진은 '하이브리드' 포맷을 개발했다. TwELL은 대부분의 희소 토큰을 빠른 경로로 동적으로 전송하는 동시에, 복잡하고 연산량이 많은 토큰은 밀집(Dense) 백업 행렬로 처리한다. 이러한 전략은 GPU가 희소 연산의 불규칙한 구조로 인해 성능 저하를 겪는 현상을 방지한다.

연구팀은 여러 개의 희소 행렬 곱셈을 결합한 사용자 정의 CUDA 커널을 도입하여 하드웨어 처리량을 극대화하고 활성화 크기를 최소화했다. 10억 파라미터 모델을 대상으로 한 테스트 결과, 기존 대비 20% 이상의 속도 향상과 함께 메모리 및 에너지 효율성 면에서 상당한 개선을 보였다. 해당 연구는 기계학습 분야의 최고 권위 학회인 ICML 2026에서 발표될 예정이다.

이번에 발표된 TwELL(Tile-wise ELLPACK)은 희소 아키텍처(Sparse architecture)를 사용하는 거대언어모델(LLM)을 최적화하기 위한 새로운 기술적 접근 방식이다. 희소 모델이란 전체 신경망 중 입력 데이터에 따라 일부 활성화된 뉴런만 사용하는 모델을 의미한다. 현대 LLM은 기본적으로 이러한 희소성을 내재하고 있지만, 표준 하드웨어는 이로 인해 발생하는 불규칙한 메모리 접근 패턴을 처리하는 데 어려움을 겪어왔다.

이러한 하드웨어의 한계를 극복하기 위해 연구진은 '하이브리드' 포맷을 개발했다. TwELL은 대부분의 희소 토큰을 빠른 경로로 동적으로 전송하는 동시에, 복잡하고 연산량이 많은 토큰은 밀집(Dense) 백업 행렬로 처리한다. 이러한 전략은 GPU가 희소 연산의 불규칙한 구조로 인해 성능 저하를 겪는 현상을 방지한다.

연구팀은 여러 개의 희소 행렬 곱셈을 결합한 사용자 정의 CUDA 커널을 도입하여 하드웨어 처리량을 극대화하고 활성화 크기를 최소화했다. 10억 파라미터 모델을 대상으로 한 테스트 결과, 기존 대비 20% 이상의 속도 향상과 함께 메모리 및 에너지 효율성 면에서 상당한 개선을 보였다. 해당 연구는 기계학습 분야의 최고 권위 학회인 ICML 2026에서 발표될 예정이다.