AI 모델의 시각적 기억력 저하를 해결하는 PVM
- •새로운 '지속적 시각 기억(PVM)' 모듈이 긴 시퀀스 생성 중 시각 정보가 희석되는 현상을 방지함
- •PVM은 병렬 검색 경로를 활용해 긴 텍스트 생성 과정에서도 시각적 어텐션 메커니즘의 일관성을 유지함
- •Qwen3-VL 모델 실험 결과, 파라미터 증가를 최소화하면서도 복잡한 추론 정확도가 크게 향상됨
대규모 시각-언어 모델(LVLM)은 이미지나 영상에 대해 인간처럼 질문하고 답하며 기술과의 상호작용 방식을 혁신하고 있다. 하지만 긴 대화가 이어질 때 모델의 성능이 저하되는 '시각 정보 희석' 문제가 지속적으로 보고되어 왔다. 이는 마치 두꺼운 책을 읽으며 표지의 특정 이미지를 계속 기억해야 하는 상황과 비슷하다. 텍스트 기록이 쌓일수록 모델이 시각적 근거를 '되돌아보는' 능력이 떨어지며 정보가 배경 소음 속으로 사라지는 것이다.
모델은 텍스트를 생성할 때 전체 대화 기록을 바탕으로 다음 단어를 결정하는 자기회귀 과정을 거친다. 일반적인 시각-언어 모델에서는 텍스트와 이미지 정보가 어텐션 메커니즘을 공유하는데, 텍스트가 길어질수록 모델은 초기 시각 정보를 처리할 대역폭이 부족해진다. 그 결과 시각적 맥락에 기반한 심층 추론 능력이 감소하며 모델은 초기에 제공된 정보와의 연결고리를 잃게 된다.
새롭게 제안된 PVM은 이러한 문제를 해결하는 가볍고 우아한 대안이다. PVM은 주요 처리 과정에서 시각 데이터가 경쟁하게 하는 대신, 별도의 병렬 분기를 통해 정보를 처리한다. 마치 책갈피를 꽂아두듯 이미지를 항상 선명하게 유지하는 방식이다. 이 기술은 거리와 상관없이 직접적인 검색 경로를 제공하여 모델이 추론이 필요할 때마다 정확한 임베딩을 가져올 수 있도록 돕는다.
이 설계는 효율성 측면에서 매우 영리하다. PVM은 기존의 피드-포워드 네트워크와 나란히 배치되는 병렬 분기로 통합되었기에, 대규모 재학습이나 큰 폭의 파라미터 추가 없이도 구현이 가능하다. 이러한 구조적 개선 덕분에 생성되는 텍스트가 길어져도 일관된 성능을 유지할 수 있다. 특히 영상 분석이나 대형 도표, 다중 페이지 문서 해석 등 시각적 세부 정보를 장기간 기억해야 하는 복잡한 작업에서 그 가치가 크다.
Qwen3-VL 모델을 대상으로 한 테스트에서 PVM은 장문 생성으로 인한 성능 저하를 방지할 뿐만 아니라 모델의 내부 예측 수렴 속도까지 높이는 것으로 나타났다. 이는 단순히 데이터를 늘리는 것보다, 시간이 지나도 맥락을 유지할 수 있는 똑똑한 기억 시스템을 설계하는 것이 멀티모달 AI의 미래임을 시사한다. AI 에이전트가 단기적인 조수에서 벗어나 신뢰할 수 있는 장기 관찰자로 진화하는 중요한 전환점이 될 것으로 보인다.