이 기사의 핵심 내용은?

RNG-Bench는 멀티모달 모델의 과거 관찰 내용 재구성 및 다단계 의사결정 능력을 평가하기 위해 출시됐다. 이 벤치마크는 Matching Pairs와 3D Maze 게임을 활용해 세 가지 난이도 축에서 모델의 기억력을 테스트한다. Qwen3.5-9B 모델을 최적 정책 기반 데이터로 미세 조정하면 일반적인 능력을 유지하면서도 기억 관련 성능이 향상된다.

멀티모달 모델의 기억력 평가하는 RNG-Bench 공개

•RNG-Bench는 멀티모달 모델의 과거 관찰 내용 재구성 및 다단계 의사결정 능력을 평가하기 위해 출시됐다.
•이 벤치마크는 Matching Pairs와 3D Maze 게임을 활용해 세 가지 난이도 축에서 모델의 기억력을 테스트한다.
•Qwen3.5-9B 모델을 최적 정책 기반 데이터로 미세 조정하면 일반적인 능력을 유지하면서도 기억 관련 성능이 향상된다.

•RNG-Bench는 멀티모달 모델의 과거 관찰 내용 재구성 및 다단계 의사결정 능력을 평가하기 위해 출시됐다.
•이 벤치마크는 Matching Pairs와 3D Maze 게임을 활용해 세 가지 난이도 축에서 모델의 기억력을 테스트한다.
•Qwen3.5-9B 모델을 최적 정책 기반 데이터로 미세 조정하면 일반적인 능력을 유지하면서도 기억 관련 성능이 향상된다.

멀티모달 파운데이션 모델이 과거의 관찰 내용을 재구성하고 이를 의사결정에 활용하는 능력을 평가하는 새로운 벤치마크 RNG-Bench가 2026년 6월 17일에 발표됐다. 션위안 딩(Shengyuan Ding)을 포함한 연구진이 개발한 이 벤치마크는 다단계 상호작용, 즉 이전 상태에 따라 행동이 달라지는 연속적 의사결정 과정을 다룬다. 특히 현재의 관찰 정보만으로는 최적의 판단을 내릴 수 없는 논-마르코프 환경에서의 성능 측정에 초점을 맞췄다.

RNG-Bench는 카드 식별 능력을 요구하는 Matching Pairs와 1인칭 시점의 공간 맵을 통합해야 하는 3D Maze 등 두 가지 게임을 핵심으로 한다. 평가 과정에는 그리드 크기, 시각적 패턴, 관찰 방식이라는 세 가지 난이도 축이 포함된다. 연구진은 기억력 부족과 의사결정 오류를 구분하기 위해 '메모리 갭(Memory Gap)' 지표를 도입했다. 테스트 결과, 가장 높은 난이도의 환경에서는 에피소드당 약 128K 토큰의 문맥과 350개의 이미지 입력이 요구되며, 이는 현재 최상위 모델들도 해결하기 어려운 수준이다.

분석 결과 모델의 성능 저하는 의사결정의 문제보다는 과거 관찰 내용을 기억하지 못하는 데서 기인하는 것으로 드러났다. 연구진은 Qwen3.5-9B 모델을 최적 정책 데이터로 미세 조정했을 때 일반적인 멀티모달 능력을 저하시키지 않고도 벤치마크 성능을 높일 수 있음을 확인했다. 또한 이러한 방식은 기존 벤치마크에도 긍정적인 전이 효과를 보여, 향후 에이전트의 기억력을 개선하는 새로운 경로를 제시한다.

멀티모달 파운데이션 모델이 과거의 관찰 내용을 재구성하고 이를 의사결정에 활용하는 능력을 평가하는 새로운 벤치마크 RNG-Bench가 2026년 6월 17일에 발표됐다. 션위안 딩(Shengyuan Ding)을 포함한 연구진이 개발한 이 벤치마크는 다단계 상호작용, 즉 이전 상태에 따라 행동이 달라지는 연속적 의사결정 과정을 다룬다. 특히 현재의 관찰 정보만으로는 최적의 판단을 내릴 수 없는 논-마르코프 환경에서의 성능 측정에 초점을 맞췄다.

RNG-Bench는 카드 식별 능력을 요구하는 Matching Pairs와 1인칭 시점의 공간 맵을 통합해야 하는 3D Maze 등 두 가지 게임을 핵심으로 한다. 평가 과정에는 그리드 크기, 시각적 패턴, 관찰 방식이라는 세 가지 난이도 축이 포함된다. 연구진은 기억력 부족과 의사결정 오류를 구분하기 위해 '메모리 갭(Memory Gap)' 지표를 도입했다. 테스트 결과, 가장 높은 난이도의 환경에서는 에피소드당 약 128K 토큰의 문맥과 350개의 이미지 입력이 요구되며, 이는 현재 최상위 모델들도 해결하기 어려운 수준이다.

분석 결과 모델의 성능 저하는 의사결정의 문제보다는 과거 관찰 내용을 기억하지 못하는 데서 기인하는 것으로 드러났다. 연구진은 Qwen3.5-9B 모델을 최적 정책 데이터로 미세 조정했을 때 일반적인 멀티모달 능력을 저하시키지 않고도 벤치마크 성능을 높일 수 있음을 확인했다. 또한 이러한 방식은 기존 벤치마크에도 긍정적인 전이 효과를 보여, 향후 에이전트의 기억력을 개선하는 새로운 경로를 제시한다.