LLM 평가 모델의 편향성, 에이전트 벤치마크 순위 왜곡
- •단일 LLM 심사위원의 평가 결과가 일관되지 않아, 모델 점수가 심사위원에 따라 최대 47점까지 차이가 발생한다.
- •Opus-4-7은 모든 심사위원 평가에서 1위를 유지했으나, 중하위권 모델들의 순위는 심사위원에 따라 크게 뒤바뀌었다.
- •평가의 객관성과 안정성을 높이기 위해 다수의 심사위원 활용 및 이진형 루브릭 기준 도입이 권장된다.
새로운 벤치마크 분석 결과, 에이전트 성능 평가 시 단일 LLM을 심사위원으로 사용하면 점수 변동성이 심각하게 나타나는 것으로 확인됐다. 특정 기술 평가에서 모델별 점수 차이는 최대 47%포인트에 달했다. 이번 연구는 6개 모델과 11개 에이전트 기술을 대상으로 진행됐으며, 평가 결과는 모델의 순수 능력보다는 심사위원 선택에 의해 결정되는 경향이 컸다. 테슬(Tessl) 소속 연구진은 Sonnet, GPT-5.5, Opus-4-7 세 가지 심사위원을 활용해 각 모델의 결과물을 독립적으로 채점했다. 그 결과, Sonnet이 가장 관대한 평가를 내리는 반면 GPT-5.5는 가장 엄격하게 채점하며 두 모델 간 평균 점수 차이는 6.9점을 기록했다.
평가 순위의 불안정성도 두드러졌다. Opus-4-7은 모든 심사위원으로부터 1위를 차지했으나, 다른 모델들의 상대적 성과는 심사위원에 따라 크게 변했다. 예를 들어, gpt-5.3 모델은 Sonnet이 평가할 때는 3위를 기록했지만, GPT-5.5와 Opus-4-7 평가에서는 5위로 하락했다. 또한 Opus-4-7은 자기 자신을 평가할 때 다른 심사위원 평균보다 4.6점 높은 점수를 주는 자기 편향(self-judge bias) 현상을 보였다. 반면 GPT-5.5에서는 이러한 자기 선호 경향이 나타나지 않았다.
연구진은 이러한 점수 차이가 심사위원마다 결과물 정밀도를 다르게 해석하기 때문이라고 분석했다. 관대한 심사위원은 대략적으로 일치하는 결과물에 부분 점수를 부여하지만, 엄격한 심사위원은 요구사항에서 벗어난 부분을 엄격히 감점하기 때문이다. 이에 따라 정성적 평가가 필요한 기술은 최대 25%포인트의 점수 변동이 발생하지만, 파일 삭제 성공 여부와 같이 이진법으로 검증 가능한 작업은 심사위원에 관계없이 안정적인 결과를 보였다.
평가 지표의 신뢰성을 높이기 위해 연구진은 다수의 심사위원을 배치하고 그 결과를 평균화하여 편향을 상쇄할 것을 권고한다. 또한 주관적 해석을 최소화하기 위해 가능한 한 이진형 기준(binary criteria)으로 루브릭을 설계해야 한다고 강조했다. 특히 정확성이 중요한 작업에서는 GPT-5.5와 같이 엄격한 심사위원을 활용하는 것이 에이전트의 사양 준수 여부를 확인하는 데 더욱 유용한 데이터를 제공할 수 있다.