대규모 언어 모델, 비디오 게임 플레이에서 한계 직면
- •대규모 언어 모델(LLM)은 인간의 비디오 게임 수행 능력에 비하면 일관되게 저조한 성적을 보인다.
- •코딩 분야에서의 성공은 구조화된 작업 덕분이지만, 비디오 게임은 복잡하고 다양한 메커니즘을 요구한다.
- •게임 환경의 높은 다양성은 인공지능 학습 과정에서 표준화된 데이터를 확보하는 데 큰 장애물로 작용한다.
대규모 언어 모델은 코딩이나 언어 처리 등 다른 영역에서 놀라운 능력을 보여주지만, 비디오 게임을 수행할 때는 심각한 한계를 드러낸다. 2025년 5월, Gemini 2.5 Pro가 포켓몬 블루(Pokemon Blue)를 완료한 사례가 있으나 이는 커스텀 소프트웨어에 의존한 드문 예외일 뿐이다. 또한, 해당 작업조차 인간보다 훨씬 느린 속도로 진행되었다. 줄리안 토겔리우스(Julian Togelius) 뉴욕대학교 게임 혁신 연구소 소장은 현재의 모델들이 전문적인 게임 벤치마크에서 단순한 검색 알고리즘보다 뛰어난 성과를 내지 못하며, 특히 공간 추론과 게임 고유 메커니즘 처리에 고전하고 있다고 지적한다.
코딩에서의 성공과 게임에서의 실패는 환경 구조의 근본적인 차이에서 기인한다. 코딩은 보상이 즉각적이고 세분화된 작업 지향적 환경인 반면, 비디오 게임은 입출력 공간과 메커니즘이 방대하고 다양하다. 표준화된 학술 과제와 달리, 비디오 게임은 모델이 숙련도를 갖추기 위해 필요한 대규모의 균일한 데이터셋이 부족하다. 대부분의 게임은 각기 다른 반복적인 학습 과정을 요구하며, 현재의 모델은 이를 수행할 능력이 없다.
전문가들은 구글이나 엔비디아와 같은 기업이 AI 학습 루프에 게임 형태의 시뮬레이션을 통합함에도 불구하고, AI의 현재 게임 수행 잠재력을 과대평가하지 말라고 경고한다. 게임은 물리 법칙이 일관된 현실 세계보다 훨씬 다양하다. 자율주행 분야의 웨이모(Waymo)가 사용하는 월드 모델은 현실의 물리적 안정성을 활용하지만, 비디오 게임은 이러한 보편적인 제약이 없다. 결과적으로 LLM은 게임 코드를 생성할 수는 있어도, 새롭거나 높은 품질의 게임 경험을 구현하는 데 필요한 반복적인 테스트와 조정 능력은 여전히 갖추지 못했다.