LLM 앙상블의 독립성 분석, 겉보기와 다른 오류 상관관계
- •두 개의 LLM을 사용한 독립성 테스트 결과, 모델 간 오류 상관관계로 인해 실제 판정 능력은 2.0명이 아닌 1.75명 수준에 그쳤다.
- •실험 결과 70%의 일치율과 0.42의 Phi 상관계수를 기록했으며, 관찰된 공동 오류율은 28%로 나타났다.
- •모델 간 의견 불일치는 전체 프롬프트의 30%에서만 발생했으며, 이는 멀티 모델 앙상블의 실질적 가치를 결정하는 핵심 지표로 분석됐다.
최근 두 개의 서로 다른 언어 모델을 독립적인 탈옥(Jailbreak) 탐지기로 활용한 실험 결과, 모델 간 독립성은 학습 데이터와 안전 정렬(Safety Alignment)의 중첩으로 인해 실제로는 환상에 불과한 것으로 드러났다. 이번 테스트는 Groq의 Llama 3.1 8B 모델과 OpenRouter의 Gemma 4 31B 모델을 사용하여 온도(Temperature) 값을 0.0으로 고정한 상태에서 진행됐다. 총 50개의 프롬프트를 입력한 결과, 모델들은 70%의 일치율과 0.42의 Phi 상관계수, 그리고 0.40의 코헨 카파 점수를 기록했다. 이러한 통계 지표는 모델이 독립적인 2.0개의 판단력을 가진 것이 아니라, 실제로는 1.75개의 독립적 판정 역량을 보여주며 유효 표본 크기(n_eff)는 50개 중 35.3개에 불과함을 시사한다.
실패 분석 결과, 모델들이 완전히 독립적이라면 예상되는 공동 실패 확률은 18%여야 하나, 실제 관찰된 우연을 초과하는 공동 실패율은 28%로 10%포인트 더 높게 나타났다. 개별 모델의 탈옥 취약성은 Groq가 50%, Gemma가 36%로 집계됐다. 50건의 테스트 중 두 모델이 동시에 실패한 사례는 14건으로 이는 공통된 취약점을 의미하며, 모델 간 의견이 갈린 사례는 15건이었다. 연구진은 이러한 오류 상관관계가 학습 데이터셋의 공통점, RLHF(인간 피드백 강화학습) 데이터셋의 유사성, 그리고 역할극 기반의 탈옥을 처리하는 유사한 논리 구조에서 기인한다고 분석했다.
분석은 개발자가 안전성을 높이기 위해 여러 모델을 사용하더라도 독립성을 가정하기보다는 직접 측정해야 한다는 점을 강조한다. 이번 연구에서 모델 간 의견 불일치가 발생한 경우는 전체의 30%에 불과했으며, 오직 이 경우에만 보조 모델이 추가적인 가치를 제공하는 것으로 확인됐다. 해당 연구를 진행한 잭(Jack)은 다른 개발자들이 자신의 AI 파이프라인 내 상관관계를 직접 측정할 수 있도록 전체 데이터셋과 분석 스크립트를 GitHub에 공개했다.