텐센트, 긴 문맥 검색 성능 높인 QRRanker 공개
- •텐센트 연구진이 높은 정확도의 문서 재순위화를 위해 40억 개의 파라미터를 갖춘 경량 모델인 QRRanker를 도입했다.
- •이 프레임워크는 복잡한 인간의 레이블링 작업 없이도 특정 어텐션 점수를 활용해 정보의 관련성을 정확히 추정한다.
- •긴 문맥의 대화 및 메모리 처리 능력을 측정하는 LoCoMo 벤치마크에서 새로운 세계 최고 성능(SOTA)을 기록했다.
텐센트 연구진이 방대한 데이터셋 내에서 정보를 분류하고 우선순위를 정하는 AI 모델의 성능을 획기적으로 개선한 새로운 재순위화 프레임워크인 QRRanker를 공개했다. 기존의 검색 시스템은 수천 단어에 달하는 긴 문맥 속에서 가장 관련성이 높은 정보를 식별할 때 연산 비용이 과도하게 발생하는 고질적인 문제를 안고 있었다. QRRanker는 모델 내부의 특정 '어텐션 헤드'를 활용해 관련성 점수를 계산함으로써, 40억 개의 파라미터만으로도 훨씬 거대한 기존 시스템들을 능가하는 성과를 거두었다.
이번 모델의 가장 독특한 점은 개별 문서를 하나씩 검토하는 방식에서 벗어나 전체 후보 목록을 동시에 평가하는 'Listwise reranking' 솔루션으로 전환했다는 점이다. 이러한 접근법은 쿼리의 맥락을 더욱 총체적으로 이해할 수 있게 해주며, 특히 시스템 스스로 연속적인 관련성 점수를 자연스럽게 생성하기 때문에 모델 개발의 병목 현상인 수작업 레이블링 과정이 필요하지 않다. 그 결과, 인간의 개입 없이도 다양한 데이터셋을 활용해 효율적으로 모델을 학습시킬 수 있게 되었다.
실제로 QRRanker는 긴 대화 흐름을 파악하고 메모리를 효과적으로 활용하는 능력을 측정하는 LoCoMo benchmark에서 역대 최고 성능을 경신하며 그 실효성을 입증했다. 또한 연구진은 중간 계층의 어텐션 헤드에 집중함으로써 높은 정확도를 유지하면서도 처리 효율성을 극대화하는 데 성공했다. 이는 속도와 정확성이 동시에 요구되는 실제 산업 현장의 AI 서비스에 즉각적으로 적용할 수 있는 강력한 도구가 될 것으로 기대된다.