이 기사의 핵심 내용은?

텐센트 연구진이 높은 정확도의 문서 재순위화를 위해 40억 개의 파라미터를 갖춘 경량 모델인 QRRanker를 도입했다. 이 프레임워크는 복잡한 인간의 레이블링 작업 없이도 특정 어텐션 점수를 활용해 정보의 관련성을 정확히 추정한다. 긴 문맥의 대화 및 메모리 처리 능력을 측정하는 LoCoMo 벤치마크에서 새로운 세계 최고 성능(SOTA)을 기록했다.

텐센트, 긴 문맥 검색 성능 높인 QRRanker 공개

•텐센트 연구진이 높은 정확도의 문서 재순위화를 위해 40억 개의 파라미터를 갖춘 경량 모델인 QRRanker를 도입했다.
•이 프레임워크는 복잡한 인간의 레이블링 작업 없이도 특정 어텐션 점수를 활용해 정보의 관련성을 정확히 추정한다.
•긴 문맥의 대화 및 메모리 처리 능력을 측정하는 LoCoMo 벤치마크에서 새로운 세계 최고 성능(SOTA)을 기록했다.

텐센트 연구진이 방대한 데이터셋 내에서 정보를 분류하고 우선순위를 정하는 AI 모델의 성능을 획기적으로 개선한 새로운 재순위화 프레임워크인 QRRanker를 공개했다. 기존의 검색 시스템은 수천 단어에 달하는 긴 문맥 속에서 가장 관련성이 높은 정보를 식별할 때 연산 비용이 과도하게 발생하는 고질적인 문제를 안고 있었다. QRRanker는 모델 내부의 특정 '어텐션 헤드'를 활용해 관련성 점수를 계산함으로써, 40억 개의 파라미터만으로도 훨씬 거대한 기존 시스템들을 능가하는 성과를 거두었다.

이번 모델의 가장 독특한 점은 개별 문서를 하나씩 검토하는 방식에서 벗어나 전체 후보 목록을 동시에 평가하는 'Listwise reranking' 솔루션으로 전환했다는 점이다. 이러한 접근법은 쿼리의 맥락을 더욱 총체적으로 이해할 수 있게 해주며, 특히 시스템 스스로 연속적인 관련성 점수를 자연스럽게 생성하기 때문에 모델 개발의 병목 현상인 수작업 레이블링 과정이 필요하지 않다. 그 결과, 인간의 개입 없이도 다양한 데이터셋을 활용해 효율적으로 모델을 학습시킬 수 있게 되었다.

실제로 QRRanker는 긴 대화 흐름을 파악하고 메모리를 효과적으로 활용하는 능력을 측정하는 LoCoMo benchmark에서 역대 최고 성능을 경신하며 그 실효성을 입증했다. 또한 연구진은 중간 계층의 어텐션 헤드에 집중함으로써 높은 정확도를 유지하면서도 처리 효율성을 극대화하는 데 성공했다. 이는 속도와 정확성이 동시에 요구되는 실제 산업 현장의 AI 서비스에 즉각적으로 적용할 수 있는 강력한 도구가 될 것으로 기대된다.

우리가 도서관에서 수만 권의 책 중에 딱 맞는 정보를 찾으려면 시간이 한참 걸리듯이, 인공지능도 방대한 자료 속에서 정답을 찾는 데 많은 에너지를 써야 했습니다. 텐센트 연구진이 만든 QRRanker라는 기술은 이 과정을 획기적으로 줄여주는데요. 마치 40억 명의 전문가가 협동하는 것처럼 효율적인 엔진(파라미터)을 사용해, 기존의 무겁고 느린 시스템들보다 훨씬 빠르게 핵심 정보만을 골라낼 수 있게 되었습니다.

이 기술의 비결은 문서를 하나씩 차례로 읽지 않고, 후보가 되는 정보들을 한꺼번에 훑어보는 독특한 방식에 있습니다. 기존에는 AI에게 무엇이 중요한지 사람이 일일이 정답지를 만들어 알려줘야 했는데, 이제는 AI가 스스로 문맥을 파악해 우선순위를 매깁니다. 요리로 비유하자면, 일일이 재료를 검사하던 번거로운 과정을 거치지 않고도 눈대중만으로 가장 신선한 식재료를 한 번에 골라내는 요리사를 둔 셈입니다.

실제로 긴 대화 내용을 기억하고 그 안에서 필요한 답을 찾는 테스트인 LoCoMo 평가에서 이 기술은 당당히 세계 1위를 차지했습니다. 중간 단계에서 핵심적인 단서만 집중적으로 관찰하는 똑똑한 방식을 택했기 때문인데요. 앞으로 이 기술이 상용화되면 우리가 챗봇이나 검색 서비스를 이용할 때, 훨씬 더 빠르고 정확한 답변을 체감할 수 있을 것으로 보입니다.