알리바바, AI 경로 계획 성능 평가용 ‘MobilityBench’ 공개
- •알리바바 연구진이 복잡한 실세계 내비게이션 환경에서 AI 에이전트의 성능을 평가하는 MobilityBench를 선보였다.
- •해당 벤치마크는 경로 계획 테스트 중 환경적 변수를 제거하기 위해 결정론적 API-replay 샌드박스 기능을 도입했다.
- •실험 결과, AI 에이전트는 기본적인 경로 탐색에는 능숙하지만 개인의 선호도가 반영된 제약 조건이 추가될 경우 여전히 어려움을 겪는 것으로 나타났다.
AI가 물리적인 세계를 탐색하고 길을 찾는 능력을 평가하는 기술이 한 단계 진화했다. 알리바바(Alibaba) 산하의 지도 서비스 부문인 Amap 연구진은 대규모 언어 모델(LLM) 에이전트의 경로 계획 능력을 전문적으로 테스트할 수 있는 MobilityBench를 공개했다. 이 벤치마크는 정적인 데이터셋에 의존하던 기존 방식과 달리, 실제 사용자의 익명화된 질의 데이터를 활용하여 전 세계 교통 상황의 복잡하고 예측 불가능한 특성을 그대로 시뮬레이션한다.
이번 연구의 핵심 혁신은 '결정론적 API-replay 샌드박스'의 도입이다. 기존에는 교통량 변화나 도로 폐쇄 등 실시간 지도 데이터가 끊임없이 변하기 때문에 두 가지 이상의 AI 모델을 공정하게 비교하는 것이 사실상 불가능했다. 특히 이 샌드박스는 환경을 특정 시점에 '동결'하여 모든 AI 에이전트에게 동일한 조건을 재현한다. 그 결과 성능 차이가 외부 변수가 아닌 오직 모델 자체의 지능에서 비롯된다는 점을 보장하며 공정한 평가를 가능하게 했다.
다만 초기 연구 결과는 현재 기술력의 명확한 한계를 보여준다. 실제로 AI 에이전트는 목적지까지 가장 빠르게 가는 기본 경로 탐색(Basic routing)에는 매우 능숙한 모습을 보였다. 하지만 고속도로 제외나 경치 좋은 길 선호와 같은 사용자의 구체적인 취향이 반영된 '제약 조건부 계획(Preference-constrained planning)' 단계에서는 자주 실수를 범했다. 이는 현재의 AI 비서가 지도를 읽을 줄은 알지만, 인간의 복잡한 욕구와 개인화된 여행 행태를 온전히 이해하기에는 아직 부족함이 있음을 시사한다.