이 기사의 핵심 내용은?

연구진은 거대언어모델 에이전트의 다단계 도구 활용 능력을 개선하기 위해 APPO 프레임워크를 공개했다. APPO는 13개 벤치마크 테스트에서 기존 에이전트 기반 강화 학습 대비 약 4점 높은 성능을 기록했다. 이 방식은 세밀한 분기 점수를 활용해 순차적 의사결정 과정에서 보상 할당을 최적화한다.

AI 에이전트 도구 활용 성능 높이는 APPO 프레임워크 등장

•연구진은 거대언어모델 에이전트의 다단계 도구 활용 능력을 개선하기 위해 APPO 프레임워크를 공개했다.
•APPO는 13개 벤치마크 테스트에서 기존 에이전트 기반 강화 학습 대비 약 4점 높은 성능을 기록했다.
•이 방식은 세밀한 분기 점수를 활용해 순차적 의사결정 과정에서 보상 할당을 최적화한다.

연구진은 6월 11일, 거대언어모델 에이전트의 다단계 도구 활용(Tool-use) 능력을 강화하기 위한 새로운 강화 학습 방법론인 APPO(Agentic Procedural Policy Optimization)를 발표했다. 쉬충 왕(Xucong Wang)이 이끄는 연구진은 도구 호출 경계와 같은 거친 휴리스틱에 의존하던 기존의 보상 할당 전략을 개선하기 위해 이번 프레임워크를 개발했다. 생성 시퀀스 전반에 영향력 있는 의사결정 지점이 흩어져 있다는 점을 착안해, 의사결정의 분기점과 보상 할당을 세밀한 단위로 전환하는 시스템을 구축했다.

APPO는 분기 점수(Branching Score)를 활용해 대안 시퀀스를 생성할 위치를 결정하며, 토큰 불확실성과 정책에 따른 후속 토큰의 가능성 이득을 결합한다. 이러한 접근 방식은 영향력이 낮은 높은 토큰 엔트로피(Token Entropy) 위치를 걸러내면서 목표 지향적인 탐색을 가능하게 한다. 아울러 절차 수준의 이점 스케일링을 통해 분기된 롤아웃 전반에 걸쳐 보상을 효율적으로 분배한다. 13개 벤치마크 테스트 결과, APPO는 기존의 강력한 에이전트 강화 학습 기준 모델을 약 4점 차이로 상회하는 성능을 보였다. 또한 효율적인 도구 활용을 유지하며 에이전트 동작의 해석 가능성까지 확보했다. 프로젝트 코드는 깃허브(GitHub)의 AMAP-ML 저장소에서 확인할 수 있다.

연구진은 6월 11일, 거대언어모델 에이전트의 다단계 도구 활용(Tool-use) 능력을 강화하기 위한 새로운 강화 학습 방법론인 APPO(Agentic Procedural Policy Optimization)를 발표했다. 쉬충 왕(Xucong Wang)이 이끄는 연구진은 도구 호출 경계와 같은 거친 휴리스틱에 의존하던 기존의 보상 할당 전략을 개선하기 위해 이번 프레임워크를 개발했다. 생성 시퀀스 전반에 영향력 있는 의사결정 지점이 흩어져 있다는 점을 착안해, 의사결정의 분기점과 보상 할당을 세밀한 단위로 전환하는 시스템을 구축했다.

APPO는 분기 점수(Branching Score)를 활용해 대안 시퀀스를 생성할 위치를 결정하며, 토큰 불확실성과 정책에 따른 후속 토큰의 가능성 이득을 결합한다. 이러한 접근 방식은 영향력이 낮은 높은 토큰 엔트로피(Token Entropy) 위치를 걸러내면서 목표 지향적인 탐색을 가능하게 한다. 아울러 절차 수준의 이점 스케일링을 통해 분기된 롤아웃 전반에 걸쳐 보상을 효율적으로 분배한다. 13개 벤치마크 테스트 결과, APPO는 기존의 강력한 에이전트 강화 학습 기준 모델을 약 4점 차이로 상회하는 성능을 보였다. 또한 효율적인 도구 활용을 유지하며 에이전트 동작의 해석 가능성까지 확보했다. 프로젝트 코드는 깃허브(GitHub)의 AMAP-ML 저장소에서 확인할 수 있다.