비주얼 검색 성능 시험할 새 벤치마크 등장
HuggingFace
2026년 2월 18일 (수)
- •DeepImageSearch는 복잡한 시각적 이력 스트림 내에서 AI 에이전트의 다단계 추론 능력을 평가한다.
- •연구진은 상호 연결된 시간적 시퀀스 전반에서 문맥 인지 검색을 테스트하기 위한 DISBench를 도입했다.
- •이중 메모리 시스템을 갖춘 모듈형 에이전트 프레임워크가 시각적 데이터의 장기 탐색 문제를 해결한다.
기존의 이미지 검색은 의미론적 유사성을 바탕으로 단일 쿼리와 단일 이미지를 매칭하는 방식에 의존해 왔다. 하지만 실제 세계의 시각적 데이터는 문맥이 가장 중요한 연속적인 스트림 형태로 존재하는 경우가 많다. 이에 DeepImageSearch는 이미지 검색을 자율적인 탐색 과제로 취급함으로써 이러한 정적인 방식에서 탈피했다. 특히 이전 프레임에서 발견되는 미묘한 문맥적 단서를 통해서만 대상을 식별할 수 있는 '시각적 이력' 시퀀스를 AI가 이해하도록 요구한다.
이러한 능력을 평가하기 위해 런민대학교 NLPIR 연구실(NLPIR Lab @ RUC)의 더우즈청(Zhicheng Dou) 교수팀은 복잡한 계획 수립이 필요한 시각 데이터 벤치마크인 DISBench를 개발했다. 문맥 의존형 쿼리 제작은 노동 집약적인 작업이기에, 연구팀은 비전-언어 모델이 시공간적 연결 고리를 식별하도록 돕는 협업 파이프라인을 구축했다. 이를 통해 홈 보안 카메라나 웨어러블 기기 로그와 같은 실제 환경의 복잡한 관계를 벤치마크에 성공적으로 구현했다.
또한 이번 연구는 모듈형 에이전트 프레임워크를 활용한 기준 모델을 함께 제시했다. 이 시스템은 '장기 탐색'을 관리하기 위해 이중 메모리 구조를 활용하며, AI가 과거에 본 내용을 기억해 다음 탐색 위치를 결정하게 한다. 실제로 실험 결과 최첨단 모델들도 이러한 과제 수행에 어려움을 겪는 것으로 나타났으며, 이는 단순 사물 인식과 차세대 검색 시스템용 정교한 추론 능력 사이에 큰 간극이 있음을 보여준다.