Salesforce, AI 에이전트용 'SFR-RL' 훈련 스택 공개
- •Salesforce AI Research가 멀티턴 에이전트 워크플로우에 최적화된 훈련 스택 'SFR-RL'을 발표했다.
- •새로운 파이프라인 동기화 방식을 통해 기존 훈련 프레임워크 대비 10배 높은 메모리 효율을 달성했다.
- •단 16대의 GPU만으로 1,200억 개의 파라미터를 가진 MoE 모델을 100만 토큰의 컨텍스트 길이로 훈련할 수 있다.
단순한 채팅 인터페이스를 넘어 도구와 상호작용하고 웹을 탐색하며 코드를 실행하는 '에이전트형' AI로의 전환은 훈련 인프라에 커다란 도전 과제를 던져주고 있다. 특히 기존의 강화학습 시스템은 복잡한 작업이 완료되기를 기다리는 동안 GPU가 유휴 상태로 방치되는 '스트래글러(stragglers)' 현상으로 인해 효율성이 떨어지는 고질적인 문제를 안고 있었다. 이에 따라 Salesforce AI Research는 고도의 복잡성을 요구하는 환경에 특화된 새로운 훈련 스택인 SFR-RL을 선보이며 이러한 병목 현상을 해결했다.
기존 방식이 속도가 느린 동기식 훈련이나 업데이트가 불안정한 비동기식 방식 중 하나를 선택해야 했던 것과 달리, SFR-RL은 '파이프라인 동기화(pipelined synchronous)' 접근 방식을 도입했다. 이 시스템은 모델이 행동을 생성하는 롤아웃 단계와 이를 학습하는 훈련 단계를 번갈아 수행하며 작동한다. 특히 전체 GPU 클러스터에서 모델을 추론 엔진과 훈련 상태로 교차 전환함으로써, 하드웨어 활용률을 100%에 가깝게 유지하면서도 고품질 학습에 필요한 안정성을 확보하는 데 성공했다.
무엇보다 주목할 만한 성과는 컴퓨팅 자원을 절약하기 위해 네트워크의 특정 '전문가' 부분만 활성화하는 Mixture-of-Experts (MoE) 아키텍처를 처리하는 방식이다. SFR-RL은 Expert Parallelism을 활용하여 이러한 구성 요소를 효율적으로 분산하며, 실제로 단 16대의 H200 GPU만으로도 1,200억 개의 파라미터를 가진 거대 모델이 100만 토큰에 달하는 컨텍스트 윈도우를 처리할 수 있게 되었다. 그 결과 이전의 오픈소스 프레임워크와 비교했을 때 처리량과 메모리 효율성 측면에서 획기적인 도약을 이뤄냈다.