LLM, 긴 이야기의 일관성 유지에 한계 노출
- •2,000개의 프롬프트와 19개의 미세 오류 유형을 바탕으로 서사 일관성을 평가하는 ConStory-Bench가 공개됐다.
- •자동화 파이프라인 ConStory-Checker는 명시적인 텍스트 증거와 인용문을 활용해 서사 내 모순을 정교하게 탐지한다.
- •연구 결과 일관성 오류는 이야기 중간 부분에서 주로 발생하며, 이는 높은 토큰 단위 엔트로피와 상관관계를 보인다.
대규모 언어 모델(LLM)은 일관성 있는 문장을 생성하는 데 능숙하지만, 긴 서사 구조를 작성할 때는 종종 이야기의 흐름을 놓치는 모습을 보인다. 특히 분량이 수만 단어에 달하는 장문에서는 설정한 세계관을 망각하거나 캐릭터의 특성을 모순되게 서술하고 시간적 논리를 뒤집는 실수가 빈번하게 발생한다. 이러한 할루시네이션 현상을 정량화하기 위해, 연구진은 문장의 유창함이나 줄거리의 품질 대신 서사의 온전성을 집중적으로 감사하는 전문 프레임워크인 ConStory-Bench를 도입했다.
이 벤치마크는 일관성 오류를 다섯 가지 주요 범주로 분류한다. 2,000개의 다양한 프롬프트를 분석한 결과, LLM은 무엇이 언제 일어났는지 잊어버리는 사실적·시간적 오류에 가장 취약한 것으로 나타났다. 흥미로운 점은 이러한 오류가 이야기 전체에 고르게 분포하지 않고 주로 중간 부분에서 집중적으로 발견된다는 사실이다. 이는 AI가 한 번에 기억할 수 있는 텍스트 양인 컨텍스트 윈도우가 가득 차면서 서사의 기초 설정을 유지하는 능력이 저하됨을 시사한다.
핵심 혁신 사례인 ConStory-Checker는 단순한 오류 탐지를 넘어 텍스트에서 정확한 인용구를 제시하며 증거를 제공하는 자동화 파이프라인이다. 이러한 근거 제시는 평가의 재현성과 감사 가능성을 높여준다. 또한 연구진은 일관성 오류가 다음 단어 선택에 대한 모델의 불확실성을 측정하는 지표인 토큰 단위 엔트로피와 밀접하게 연결되어 있음을 발견했다. 실제로 모델의 불확실성이 높아질 때, 스스로 설정한 규칙을 깨뜨릴 가능성이 현저히 커지는 것으로 확인됐다.