바이트댄스, 효율적 AI 추론 위한 SAGE-RL 공개
- •바이트댄스 연구진, AI 모델이 정답 도달 시점을 스스로 인지한다는 사실 발견
- •SAGE-RL을 통해 불필요한 사고 과정을 생략하고 연산 효율과 정확도 개선
- •새로운 샘플링 패러다임이 고난도 수학 벤치마크에서 기존 방식 능가
바이트댄스(ByteDance) 연구진이 거대 추론 모델 내부에서 숨겨진 놀라운 능력을 발견했다. 모델은 문제를 해결한 시점을 정확히 알고 있음에도 불구하고, 현재의 시스템 구조상 계속해서 '생각'하도록 강제되고 있다는 점이다. 이러한 지속적인 내적 대화, 즉 긴 사고 사슬(Chain of Thought)은 정답을 찾은 뒤에도 불필요한 연산을 반복하게 만들어 응답을 지연시킬 뿐 아니라 실제 정확도 향상에도 도움이 되지 않는다. 실제로 지나치게 긴 추론 경로는 오히려 불필요한 복잡성을 더해, 처음에 도출한 올바른 통찰력을 흐리고 새로운 오류를 유발하기도 한다.
이에 연구진은 모델의 잠재된 자아 인식 능력을 활용할 수 있도록 설계된 샘플링 패러다임인 SAGE(Self-Aware Guided Efficient Reasoning)를 도입했다. SAGE는 모델이 스스로 성공적인 해답을 찾았음을 인식하게 함으로써, 복잡한 추론 작업에서 흔히 발생하는 불필요한 '수다'를 제거한다. 이는 단순히 시간을 절약하는 차원을 넘어, 모델 자체의 논리 구조를 더욱 정교하게 다듬는 역할을 한다.
나아가 연구진은 이러한 접근 방식을 SAGE-RL이라는 강화학습 프레임워크에 통합하여 더욱 발전시켰다. 이 방식은 표준 추론(Pass@1) 과정에서 모델이 효율적인 추론 패턴을 스스로 내재화하도록 학습시킨다. 실험 결과, 여러 까다로운 수학적 벤치마크에서 속도와 정밀도 모두 눈에 띄게 향상되는 성과를 거두었다. 모델이 적절한 시점에 멈추는 법을 가르침으로써, 바이트댄스는 더욱 빠르고 신뢰할 수 있는 AI 비서의 시대를 열어가고 있다.