이 기사의 핵심 내용은?

DeepImageSearch는 복잡한 시각적 이력 스트림 내에서 AI 에이전트의 다단계 추론 능력을 평가한다. 연구진은 상호 연결된 시간적 시퀀스 전반에서 문맥 인지 검색을 테스트하기 위한 DISBench를 도입했다. 이중 메모리 시스템을 갖춘 모듈형 에이전트 프레임워크가 시각적 데이터의 장기 탐색 문제를 해결한다.

비주얼 검색 성능 시험할 새 벤치마크 등장

•DeepImageSearch는 복잡한 시각적 이력 스트림 내에서 AI 에이전트의 다단계 추론 능력을 평가한다.
•연구진은 상호 연결된 시간적 시퀀스 전반에서 문맥 인지 검색을 테스트하기 위한 DISBench를 도입했다.
•이중 메모리 시스템을 갖춘 모듈형 에이전트 프레임워크가 시각적 데이터의 장기 탐색 문제를 해결한다.

기존의 이미지 검색은 의미론적 유사성을 바탕으로 단일 쿼리와 단일 이미지를 매칭하는 방식에 의존해 왔다. 하지만 실제 세계의 시각적 데이터는 문맥이 가장 중요한 연속적인 스트림 형태로 존재하는 경우가 많다. 이에 DeepImageSearch는 이미지 검색을 자율적인 탐색 과제로 취급함으로써 이러한 정적인 방식에서 탈피했다. 특히 이전 프레임에서 발견되는 미묘한 문맥적 단서를 통해서만 대상을 식별할 수 있는 '시각적 이력' 시퀀스를 AI가 이해하도록 요구한다.

이러한 능력을 평가하기 위해 런민대학교 NLPIR 연구실(NLPIR Lab @ RUC)의 더우즈청(Zhicheng Dou) 교수팀은 복잡한 계획 수립이 필요한 시각 데이터 벤치마크인 DISBench를 개발했다. 문맥 의존형 쿼리 제작은 노동 집약적인 작업이기에, 연구팀은 비전-언어 모델이 시공간적 연결 고리를 식별하도록 돕는 협업 파이프라인을 구축했다. 이를 통해 홈 보안 카메라나 웨어러블 기기 로그와 같은 실제 환경의 복잡한 관계를 벤치마크에 성공적으로 구현했다.

또한 이번 연구는 모듈형 에이전트 프레임워크를 활용한 기준 모델을 함께 제시했다. 이 시스템은 '장기 탐색'을 관리하기 위해 이중 메모리 구조를 활용하며, AI가 과거에 본 내용을 기억해 다음 탐색 위치를 결정하게 한다. 실제로 실험 결과 최첨단 모델들도 이러한 과제 수행에 어려움을 겪는 것으로 나타났으며, 이는 단순 사물 인식과 차세대 검색 시스템용 정교한 추론 능력 사이에 큰 간극이 있음을 보여준다.

지금까지 우리가 쓰던 사진 검색은 사진 한 장을 보여주고 이게 무엇인지 묻는 수준이었습니다. 하지만 우리가 사는 현실 세계는 영화처럼 계속 이어지는 영상과 정보의 흐름 속에 있습니다. 예를 들어 단순히 열쇠를 찾는 것이 아니라, 어제 퇴근길에 현관문을 열고 들어와서 어디에 열쇠를 두었는지 그 상황을 기억해야 하는 것이죠. 이번에 새로 나온 검색 기술(DeepImageSearch)은 이렇게 멈춰 있는 사진이 아니라 시간 순서대로 이어지는 상황을 스스로 탐색하며 필요한 정보를 찾아내는 방식으로 한 단계 더 발전했습니다.

런민대학교 연구팀은 이 AI가 진짜로 상황을 잘 이해하는지 확인하기 위해 새로운 시험 문제(DISBench)를 만들었습니다. 마치 사람이 집 안을 둘러보며 물건을 찾는 것처럼, 복잡한 상황 속에서도 단서를 찾아내야 통과할 수 있는 난이도 높은 시험입니다. 연구팀은 사람이 직접 모든 문제를 만들기 어려운 점을 감안해, AI 모델들이 서로 협력해서 마치 보안 카메라나 몸에 착용하는 카메라 기록처럼 현실적이고 복잡한 문제들을 자동으로 만들어내도록 했습니다.

연구팀은 AI가 이 문제를 잘 풀 수 있도록 두 가지 기억 장치를 합친 구조를 제안했습니다. 당장 눈앞의 것을 기억하는 단기 기억과, 과거에 본 것을 떠올리는 장기 기억을 결합해 AI가 다음에는 어디를 살펴봐야 할지 스스로 결정하게 만든 것입니다. 실제로 테스트해보니 지금까지 똑똑하다고 알려진 최첨단 AI들도 이런 연속적인 상황 파악에는 아직 서툰 것으로 나타났습니다. 이 결과는 앞으로 우리가 일상에서 쓰는 AI가 사물을 그냥 보는 수준을 넘어, 사람처럼 흐름을 읽고 추론하는 똑똑한 비서로 진화하는 데 아주 중요한 이정표가 될 것입니다.