이 기사의 핵심 내용은?

GEM 파이프라인은 텍스트 말뭉치에서 다중 턴 도구 사용 데이터를 추출해 자율 AI 에이전트를 학습시킨다. GEM-32B 모델은 BFCL V3 벤치마크에서 성능을 16.5% 끌어올리며 기존 학습 모델을 압도했다. 전용 '궤적 합성기'는 미세 조정을 통해 고품질 데이터를 생성하면서도 추론 비용은 획기적으로 낮췄다.

텍스트에서 AI 에이전트의 '도구 활용' 능력을 깨우다

•GEM 파이프라인은 텍스트 말뭉치에서 다중 턴 도구 사용 데이터를 추출해 자율 AI 에이전트를 학습시킨다.
•GEM-32B 모델은 BFCL V3 벤치마크에서 성능을 16.5% 끌어올리며 기존 학습 모델을 압도했다.
•전용 '궤적 합성기'는 미세 조정을 통해 고품질 데이터를 생성하면서도 추론 비용은 획기적으로 낮췄다.

•GEM 파이프라인은 텍스트 말뭉치에서 다중 턴 도구 사용 데이터를 추출해 자율 AI 에이전트를 학습시킨다.
•GEM-32B 모델은 BFCL V3 벤치마크에서 성능을 16.5% 끌어올리며 기존 학습 모델을 압도했다.
•전용 '궤적 합성기'는 미세 조정을 통해 고품질 데이터를 생성하면서도 추론 비용은 획기적으로 낮췄다.

복잡한 다단계 과업을 수행하는 AI 에이전트 학습은 늘 고품질 상호작용 데이터의 부족이라는 벽에 부딪힌다. 기존 방식은 미리 정의된 경직된 도구 세트에 의존하는 경향이 있었다. 연구진은 이에 대응해 방대한 텍스트 말뭉치에서 '암시적 경험'을 수확하는 프레임워크인 GEM을 선보였다. 일반 텍스트를 문제 해결을 위한 로드맵으로 간주하는 것이 이 시스템의 핵심이다. 시스템은 관련 워크플로우를 식별한 뒤, 4단계 정제 과정을 거쳐 실행 가능한 도구 사용 궤적으로 변환한다. 단순히 인위적인 API 호출 데이터를 만드는 대신 텍스트 기반 추출 방식을 택함으로써 학습 시나리오의 다양성을 크게 확보했다. 성능 향상 폭은 대단히 인상적이다. GEM-32B 모델은 BFCL V3 다중 턴 벤치마크에서 16.5%의 성능 향상을 기록했다. 무엇보다 주목할 점은 복잡한 전체 파이프라인의 기능을 전용 '궤적 합성기'로 압축해냈다는 사실이다. 이 모델은 미세 조정을 거쳐 기존 파이프라인의 결과물을 아주 적은 비용으로 재현해낸다. 이는 차세대 AI 에이전트 시스템에 필요한 것이 방대한 데이터 그 자체가 아니라, 인간의 지식을 실행 가능한 기술로 변환하는 영리한 방법론임을 시사한다. 합성된 경험의 질을 유지하면서도 효율성을 극대화한 이 방식은 확장 가능한 에이전트 학습의 중요한 이정표가 될 것이다. 정적인 텍스트와 능동적인 도구 실행 사이의 간극을 메운 이번 연구는 더욱 다재다능한 파운데이션 모델로 나아가는 명확한 청사진을 제시했다.