이 기사의 핵심 내용은?

Sakana AI가 학습 후 위치 인코딩을 제거해 대규모 언어 모델(LLM)의 컨텍스트 길이를 확장하는 DroPE 기술을 공개했다. 사전 학습에 소요된 비용의 1% 미만을 투입해 제로샷(Zero-shot) 방식의 길이 외삽을 성공적으로 구현했다. DroPE는 LongBench 및 RULER 등 주요 벤치마크에서 기존의 컨텍스트 확장 모델들을 뛰어넘는 성능을 입증했다.

Sakana AI, 위치 인코딩 제거로 LLM 한계 돌파

•Sakana AI가 학습 후 위치 인코딩을 제거해 대규모 언어 모델(LLM)의 컨텍스트 길이를 확장하는 DroPE 기술을 공개했다.
•사전 학습에 소요된 비용의 1% 미만을 투입해 제로샷(Zero-shot) 방식의 길이 외삽을 성공적으로 구현했다.
•DroPE는 LongBench 및 RULER 등 주요 벤치마크에서 기존의 컨텍스트 확장 모델들을 뛰어넘는 성능을 입증했다.

•Sakana AI가 학습 후 위치 인코딩을 제거해 대규모 언어 모델(LLM)의 컨텍스트 길이를 확장하는 DroPE 기술을 공개했다.
•사전 학습에 소요된 비용의 1% 미만을 투입해 제로샷(Zero-shot) 방식의 길이 외삽을 성공적으로 구현했다.
•DroPE는 LongBench 및 RULER 등 주요 벤치마크에서 기존의 컨텍스트 확장 모델들을 뛰어넘는 성능을 입증했다.

Sakana AI가 기존 트랜스포머 기반 대규모 언어 모델(LLM)의 컨텍스트 한계를 깨기 위한 독창적인 방법론 'DroPE'를 발표했다. 현재의 AI 모델들은 문서가 길어질수록 텍스트의 순서를 파악하는 '디지털 책갈피'인 회전식 위치 인코딩(RoPE)에서 혼란을 겪으며 긴 문서를 처리하는 데 어려움을 겪어왔다. 이러한 인코딩은 학습 초기 단계에서는 안정성을 위해 필수적이지만, 결국 모델이 사전 학습 시 보았던 것보다 더 긴 시퀀스를 처리하지 못하게 가두는 견고한 창살 역할을 하게 된다.

DroPE는 위치 인코딩을 영구적인 필수 요소가 아닌 임시 가설물로 취급하여 이 문제를 해결한다. 초기 학습이 끝난 후 이를 과감히 제거함으로써, 모델이 기억력을 억지로 늘릴 때 발생하는 '의미론적 변질'이나 왜곡 없이 훨씬 긴 데이터 문자열을 탐색할 수 있게 한 것이다. 이러한 기법은 인코딩 없이 처음부터 학습할 때 발생하는 불안정성을 피하는 동시에, 기존 스케일링 방식에서 나타나던 성능 저하 문제까지 효과적으로 우회한다.

개발자들은 이 방식을 통해 기존 모델을 재조정하는 데 드는 비용을 원래 학습 비용의 1% 미만으로 대폭 줄일 수 있게 됐다. 이는 표준 컨텍스트 윈도우가 쉽게 무너지는 법률 계약서 분석이나 방대한 코드 저장소 검토 등의 작업에 매우 중요한 진전이다. 값비싼 롱 컨텍스트 미세 조정 과정이 필요 없어진 만큼, 고성능 AI의 접근성과 효율성은 앞으로 더욱 강화될 전망이다.

Sakana AI가 기존 트랜스포머 기반 대규모 언어 모델(LLM)의 컨텍스트 한계를 깨기 위한 독창적인 방법론 'DroPE'를 발표했다. 현재의 AI 모델들은 문서가 길어질수록 텍스트의 순서를 파악하는 '디지털 책갈피'인 회전식 위치 인코딩(RoPE)에서 혼란을 겪으며 긴 문서를 처리하는 데 어려움을 겪어왔다. 이러한 인코딩은 학습 초기 단계에서는 안정성을 위해 필수적이지만, 결국 모델이 사전 학습 시 보았던 것보다 더 긴 시퀀스를 처리하지 못하게 가두는 견고한 창살 역할을 하게 된다.

DroPE는 위치 인코딩을 영구적인 필수 요소가 아닌 임시 가설물로 취급하여 이 문제를 해결한다. 초기 학습이 끝난 후 이를 과감히 제거함으로써, 모델이 기억력을 억지로 늘릴 때 발생하는 '의미론적 변질'이나 왜곡 없이 훨씬 긴 데이터 문자열을 탐색할 수 있게 한 것이다. 이러한 기법은 인코딩 없이 처음부터 학습할 때 발생하는 불안정성을 피하는 동시에, 기존 스케일링 방식에서 나타나던 성능 저하 문제까지 효과적으로 우회한다.

개발자들은 이 방식을 통해 기존 모델을 재조정하는 데 드는 비용을 원래 학습 비용의 1% 미만으로 대폭 줄일 수 있게 됐다. 이는 표준 컨텍스트 윈도우가 쉽게 무너지는 법률 계약서 분석이나 방대한 코드 저장소 검토 등의 작업에 매우 중요한 진전이다. 값비싼 롱 컨텍스트 미세 조정 과정이 필요 없어진 만큼, 고성능 AI의 접근성과 효율성은 앞으로 더욱 강화될 전망이다.