이 기사의 핵심 내용은?

푸단 대학교의 AdaReasoner가 시각적 추론을 위한 도구 조합 능력을 마스터하며 특정 벤치마크에서 GPT-5를 앞질렀다. 새로운 강화 학습 알고리즘인 Tool-GRPO를 통해 최종 작업의 성공 여부를 기준으로 도구 선택과 순차적 실행을 최적화했다. 7B 규모의 모델임에도 처음 보는 도구에 적응하는 능력을 갖췄으며, 이를 통해 성능을 24.9% 향상시키는 성과를 거뒀다.

푸단대 AdaReasoner, 도구 활용 능력으로 GPT-5 능가

•푸단 대학교의 AdaReasoner가 시각적 추론을 위한 도구 조합 능력을 마스터하며 특정 벤치마크에서 GPT-5를 앞질렀다.
•새로운 강화 학습 알고리즘인 Tool-GRPO를 통해 최종 작업의 성공 여부를 기준으로 도구 선택과 순차적 실행을 최적화했다.
•7B 규모의 모델임에도 처음 보는 도구에 적응하는 능력을 갖췄으며, 이를 통해 성능을 24.9% 향상시키는 성과를 거뒀다.

•푸단 대학교의 AdaReasoner가 시각적 추론을 위한 도구 조합 능력을 마스터하며 특정 벤치마크에서 GPT-5를 앞질렀다.
•새로운 강화 학습 알고리즘인 Tool-GRPO를 통해 최종 작업의 성공 여부를 기준으로 도구 선택과 순차적 실행을 최적화했다.
•7B 규모의 모델임에도 처음 보는 도구에 적응하는 능력을 갖췄으며, 이를 통해 성능을 24.9% 향상시키는 성과를 거뒀다.

푸단 대학교(Fudan University) 연구진이 단순 암기가 아닌 근본적인 추론 기술로서 도구 사용법을 익힌 새로운 멀티모달 모델 제품군, AdaReasoner를 발표했다. 기존 모델들이 복잡한 시각적 작업에서 어떤 도구를 호출해야 할지 결정하는 데 어려움을 겪었다면, AdaReasoner는 정교한 데이터 큐레이션 파이프라인과 적응형 학습을 통해 여러 도구를 조화롭게 조율하는 법을 배운다. 이번 돌파구의 핵심은 'Tool-GRPO'라는 특화된 강화 학습 알고리즘이다. 이 알고리즘은 작업의 최종 성공 여부를 바탕으로 모델이 도구를 선택하고 배치하는 방식을 최적화한다. 결과 중심적인 학습 덕분에 모델은 불필요한 도구를 무시하고 특정 시각적 상황에서 가장 유용한 도구에 우선순위를 두게 된다. 덕분에 일반적인 추론 에이전트들이 흔히 실패하는 장기적이고 복잡한 다단계 상호작용도 무리 없이 수행해낸다. 성능 결과도 놀랍다. AdaReasoner는 Jigsaw 및 VSP(시각 공간 계획)와 같은 난도 높은 벤치마크에서 GPT-5와 같은 거대 모델의 성능을 넘어섰다. 특히 명시적으로 훈련받지 않은 도구까지 자율적으로 적용하는 '도구 적응형' 행동을 보여주었다는 점이 고무적이다. 이는 외부 환경과 능동적으로 상호작용하며 능력을 스스로 확장하는 에이틱 AI 시스템 구축에 있어 중요한 진전이다.