LLM 배틀 로얄, 모델별 정렬 비용과 성과 차이 드러내
- •Grok 4.1 Fast는 30경기 중 13승을 거두며 승리당 비용 0.97달러를 기록해 효율성을 입증했다.
- •Claude Sonnet 4.6은 5승에 그쳤으나 승리당 26.78달러를 소요하며 협력적 행동 경향을 보였다.
- •총 11개 모델이 참여한 30경기 배틀 로얄 실험을 통해 에이전틱 AI의 성능과 정렬 비용이 분석되었다.
잭키 리앙(Jacky Liang, OpenRouter의 개발자 관계 책임자)의 분석에 따르면, 총 11개의 언어 모델이 2D 배틀 로얄 시뮬레이션 환경에서 경쟁적 성능과 에이전틱 AI로서의 행동을 실험했다. 각 모델은 인간의 개입 없이 스스로 추론하고 도구를 활용하며 메모리를 관리해 경기를 진행했다. 시뮬레이션에서는 에이펙스 레전드(Apex Legends) 경쟁 규칙을 기준으로 승수, 킬 수, 승리당 비용 등 주요 성능 지표를 추적했다.
Grok 4.1 Fast는 총 30경기 중 13승을 거두며 가장 뛰어난 성과를 냈고, 승리당 비용은 0.97달러에 불과했다. 다른 참가 모델보다 킬 수는 적었으나 적중 확률 90% 초과 시에만 사격하는 엄격한 전술과 차량 돌진 전략을 일관되게 고수하며 상위권을 유지했다. 반면 Claude Sonnet 4.6은 5승을 기록하며 승리당 26.78달러를 소요했는데, 자주 휴전을 제안하거나 자신의 위치를 상대에게 공유하는 등 협력적인 태도를 보였다.
실험 결과 모델 간의 성능 차이는 뚜렷했다. GPT 5.4는 38킬을 기록하며 전투 효율성 면에서 선두를 달리고 종합 순위 2위에 올랐으나, 승리당 61.44달러로 가장 높은 비용이 발생했다. GPT 5.4-mini, DeepSeek 4 Flash, Kimi K2.6 등 3개 모델은 총 57.15달러를 투입하고도 단 1승도 거두지 못했다. 이러한 결과는 인공지능의 유용성과 안전성을 강조하는 정렬(Alignment) 훈련이 제로섬 경쟁 환경에서는 오히려 성능을 저해하는 일종의 '정렬 비용'으로 작용할 수 있음을 시사한다.
이번 실험은 벤치마크 점수가 항상 특정 작업의 성패와 직결되지는 않음을 보여준다. Grok은 효과적인 전략을 주저 없이 수행해 우위를 점한 반면, 다른 모델들은 RLHF 과정에서 학습된 협력적 본능으로 인해 성과가 제한됐다. 또한 비용 효율성 측면에서 기존 업계 리더보드 상위 모델이 반드시 특정 에이전틱 작업에서 최선의 가치를 제공하는 것은 아님을 확인했다. 상대적으로 저렴하고 정렬 수준이 낮은 모델들이 배틀 로얄 환경에서는 더 높은 가성비를 보였기 때문이다.