TetrisBench, LLM의 전략적 기획 능력 시험
- •TetrisBench는 정형화된 게임 데이터를 통해 LLM의 계획 수립 및 장기 최적화 능력을 평가한다.
- •모델은 직접 수를 선택하기보다 논리 기반의 점수 계산 함수를 생성할 때 가장 우수한 성능을 보인다.
- •숙련된 인간 플레이어는 AI의 최적화 규칙을 무너뜨리는 불규칙한 보드 패턴을 활용해 여전히 우위를 점하고 있다.
벤처캐피털 a16z의 파트너인 요코 리(Yoko Li)가 테트리스라는 고전 게임을 통해 대형언어모델(LLM)의 전략적 깊이를 파악하는 새로운 평가 프레임워크인 TetrisBench를 선보였다. 기존의 단순 대화나 논리 퍼즐과 달리, 이 벤치마크는 게임 보드를 정형화된 데이터로 처리하여 모델이 즉각적인 줄 제거와 장기적인 생존 사이에서 끊임없이 기회비용을 계산하도록 유도한다.
초기 실험에서 모델들은 매 턴마다 최적의 수를 직접 선택하는 방식에 상당한 어려움을 겪었다. 하지만 문제를 코딩 과제로 재구성하여 보드 상태를 평가하는 '점수 계산 함수'를 작성하게 하자 성능이 비약적으로 향상되었다. 이는 현재의 AI가 인간과 같은 실시간 공간 직관력을 발휘하기보다는, 명확한 객관적 전략을 수립하고 논리적 규칙을 생성하는 데 더 강점이 있음을 시사한다.
모델별 행동 양식 분석에서는 Gemini 3 Pro가 62%의 승률을 기록하며 가장 효율적인 관리 능력을 보여주었다. 다만, 최정상급 인간 플레이어들은 여전히 AI가 도달하지 못한 영역에서 우위를 점하고 있다. 인간 플레이어는 모델의 경직된 최적화 규칙이 상정하지 못한 불규칙한 보드 상태(state space)를 의도적으로 만들어내는 '통제된 혼돈' 전략을 구사하며 AI의 허를 찔렀다.
결과적으로 이번 실험은 모델의 '최적화 범위(optimization horizon)', 즉 먼 미래를 내다보고 계획하는 능력이 측정 가능한 고유의 행동 특성임을 증명했다. 모델이 스스로의 전략을 언제 수정하고 최적화하는지 분석하는 과정은 향후 복잡한 환경에서 활동할 자율 에이전트의 신뢰성을 평가하는 중요한 이정표가 될 것이다.