이 기사의 핵심 내용은?

Agentic-MME는 멀티모달 모델이 외부 도구를 사용하는 방식을 평가하기 위해 프로세스 검증형 벤치마크를 도입했다. 데이터셋은 418개의 작업과 2,000개 이상의 인간 주석 검사점을 포함하여 단계별 평가를 수행한다. Gemini3-pro는 전체 56.3%의 점수를 기록했으나, 복잡한 실세계 작업에서는 23.0%로 성능이 급락했다.

AI의 도구 활용 능력을 평가하는 새로운 벤치마크

•Agentic-MME는 멀티모달 모델이 외부 도구를 사용하는 방식을 평가하기 위해 프로세스 검증형 벤치마크를 도입했다.
•데이터셋은 418개의 작업과 2,000개 이상의 인간 주석 검사점을 포함하여 단계별 평가를 수행한다.
•Gemini3-pro는 전체 56.3%의 점수를 기록했으나, 복잡한 실세계 작업에서는 23.0%로 성능이 급락했다.

•Agentic-MME는 멀티모달 모델이 외부 도구를 사용하는 방식을 평가하기 위해 프로세스 검증형 벤치마크를 도입했다.
•데이터셋은 418개의 작업과 2,000개 이상의 인간 주석 검사점을 포함하여 단계별 평가를 수행한다.
•Gemini3-pro는 전체 56.3%의 점수를 기록했으나, 복잡한 실세계 작업에서는 23.0%로 성능이 급락했다.

AI가 단순한 챗봇에서 벗어나 스스로 문제를 해결하는 능동적 에이전트로 진화하고 있다. 이제 AI는 검색 엔진이나 코딩 환경 같은 외부 도구를 활용해 복잡한 다단계 작업을 스스로 완수하는 '에이전트' 지능의 시대로 접어들었다.

그러나 이러한 능력을 측정하는 기존 방식에는 한계가 존재한다. 대다수 평가는 최종 결과값만 확인하며, 결론에 도달하기까지의 과정은 고려하지 않는다. Agentic-MME는 이러한 문제를 해결하기 위해 첫 도구 호출부터 최종 결론까지의 전체 과정을 엄격하게 검증하는 벤치마크를 제시한다. 이는 6개 영역에 걸친 418개의 실세계 작업으로 구성되어 있다.

모델의 경로를 사람이 검증한 단계와 비교하면 AI가 불필요하게 복잡하게 생각하거나 자원을 비효율적으로 사용하는지 식별할 수 있다. 평가 결과는 현실적인 시사점을 던져준다. Gemini3-pro와 같은 최신 모델조차 작업이 복잡해질수록 성능이 23%까지 떨어지는 모습을 보였다. 이는 현재의 멀티모달 모델들이 대화에는 능숙하지만, 실제 환경에서 신뢰할 수 있는 문제 해결 능력을 갖추기에는 아직 역부족임을 보여준다.

AI가 단순한 챗봇에서 벗어나 스스로 문제를 해결하는 능동적 에이전트로 진화하고 있다. 이제 AI는 검색 엔진이나 코딩 환경 같은 외부 도구를 활용해 복잡한 다단계 작업을 스스로 완수하는 '에이전트' 지능의 시대로 접어들었다.

그러나 이러한 능력을 측정하는 기존 방식에는 한계가 존재한다. 대다수 평가는 최종 결과값만 확인하며, 결론에 도달하기까지의 과정은 고려하지 않는다. Agentic-MME는 이러한 문제를 해결하기 위해 첫 도구 호출부터 최종 결론까지의 전체 과정을 엄격하게 검증하는 벤치마크를 제시한다. 이는 6개 영역에 걸친 418개의 실세계 작업으로 구성되어 있다.

모델의 경로를 사람이 검증한 단계와 비교하면 AI가 불필요하게 복잡하게 생각하거나 자원을 비효율적으로 사용하는지 식별할 수 있다. 평가 결과는 현실적인 시사점을 던져준다. Gemini3-pro와 같은 최신 모델조차 작업이 복잡해질수록 성능이 23%까지 떨어지는 모습을 보였다. 이는 현재의 멀티모달 모델들이 대화에는 능숙하지만, 실제 환경에서 신뢰할 수 있는 문제 해결 능력을 갖추기에는 아직 역부족임을 보여준다.