이 기사의 핵심 내용은?

MIT 연구진이 '협력 배틀십' 게임을 활용해 AI 에이전트의 자연어 질문 생성 능력을 개선했다. Llama 4 Scout는 몬테카를로 추론을 통해 GPT-5 대비 1% 비용으로 82%의 승률을 기록했다. 질문을 파이썬 코드로 변환하는 자동 형식화 기법 적용 시 모델 정확도가 평균 15% 향상됐다.

MIT, '배틀십' 게임으로 AI 질문 능력 개선

•MIT 연구진이 '협력 배틀십' 게임을 활용해 AI 에이전트의 자연어 질문 생성 능력을 개선했다.
•Llama 4 Scout는 몬테카를로 추론을 통해 GPT-5 대비 1% 비용으로 82%의 승률을 기록했다.
•질문을 파이썬 코드로 변환하는 자동 형식화 기법 적용 시 모델 정확도가 평균 15% 향상됐다.

MIT CSAIL과 하버드 연구진은 언어 모델의 정보 탐색 능력을 향상하기 위해 '협력 배틀십(Collaborative Battleship)'을 테스트 환경으로 활용하는 방법을 개발했다. 연구팀은 40명의 인간 참가자로부터 질문과 답변 데이터를 수집해 'BattleshipQA' 데이터셋을 구축했고, 이를 모델 성능 평가 지표로 사용했다. GPT-5와 같은 대규모 모델은 이미 인간보다 적은 턴으로 게임을 완료하는 등 뛰어난 성능을 보였으나, 소형 모델들은 합리적인 질문 전략을 수립하는 데 어려움을 겪었다. 이를 해결하기 위해 연구진은 몬테카를로 추론 전략을 도입해 모델이 팀원의 반응을 바탕으로 게임 상태를 확률적으로 예측하도록 했다. 그 결과 Llama 4 Scout 모델의 승률은 8%에서 82%까지 대폭 상승했다. 해당 모델은 이 수준에서 GPT-5를 능가하는 효율성을 보였으며, 비용은 GPT-5의 약 1% 수준에 불과했다.

또한 연구팀은 '자동 형식화(auto-formalization)' 과정을 도입해 모델 성능을 한층 강화했다. 이는 언어 모델이 자연어 질문을 파이썬 코드로 변환해 해답을 검증하는 방식이다. 이 변환을 통해 모델은 게임 보드의 특정 영역을 명시적으로 탐색할 수 있게 되었고, 선박 배치 검증 정확도는 평균 15% 향상되었다. 구체적으로 GPT-4o-mini 모델은 약 30%의 성능 향상을 기록했으며, Claude 4 Opus는 약 8%포인트 개선되었다. 이러한 결과는 AI 에이전트가 '세계 모델(world model)'에 접근할 수 있을 때 더 유익한 질문을 생성하고 효율적으로 데이터를 수집한다는 점을 시사한다.

연구진은 이 성과를 'Guess Who?'와 같은 다른 정보 수집 과제에도 적용했다. 유사한 추론 및 코드 기반 전략을 사용한 결과, Llama 4 Scout의 성공률은 30%에서 72% 이상으로, GPT-4o는 62%에서 90%까지 높아졌다. 다만 모델들이 발전했음에도 숙련된 인간 플레이어를 완전히 능가하기는 어려웠으며, 매우 복잡한 질의응답에는 여전히 한계를 보였다. 가브리엘 그랜드(Gabriel Grand)와 제이콥 안드레아스(Jacob Andreas)가 이끄는 연구팀은 이 연구 결과를 4월 국제학습표현학회(ICLR)에서 구두 발표했으며, 향후 분자 구조 식별과 같은 과학적 발견 분야에 AI 에이전트가 활용될 가능성을 제시했다.

MIT CSAIL과 하버드 연구진은 언어 모델의 정보 탐색 능력을 향상하기 위해 '협력 배틀십(Collaborative Battleship)'을 테스트 환경으로 활용하는 방법을 개발했다. 연구팀은 40명의 인간 참가자로부터 질문과 답변 데이터를 수집해 'BattleshipQA' 데이터셋을 구축했고, 이를 모델 성능 평가 지표로 사용했다. GPT-5와 같은 대규모 모델은 이미 인간보다 적은 턴으로 게임을 완료하는 등 뛰어난 성능을 보였으나, 소형 모델들은 합리적인 질문 전략을 수립하는 데 어려움을 겪었다. 이를 해결하기 위해 연구진은 몬테카를로 추론 전략을 도입해 모델이 팀원의 반응을 바탕으로 게임 상태를 확률적으로 예측하도록 했다. 그 결과 Llama 4 Scout 모델의 승률은 8%에서 82%까지 대폭 상승했다. 해당 모델은 이 수준에서 GPT-5를 능가하는 효율성을 보였으며, 비용은 GPT-5의 약 1% 수준에 불과했다.

또한 연구팀은 '자동 형식화(auto-formalization)' 과정을 도입해 모델 성능을 한층 강화했다. 이는 언어 모델이 자연어 질문을 파이썬 코드로 변환해 해답을 검증하는 방식이다. 이 변환을 통해 모델은 게임 보드의 특정 영역을 명시적으로 탐색할 수 있게 되었고, 선박 배치 검증 정확도는 평균 15% 향상되었다. 구체적으로 GPT-4o-mini 모델은 약 30%의 성능 향상을 기록했으며, Claude 4 Opus는 약 8%포인트 개선되었다. 이러한 결과는 AI 에이전트가 '세계 모델(world model)'에 접근할 수 있을 때 더 유익한 질문을 생성하고 효율적으로 데이터를 수집한다는 점을 시사한다.

연구진은 이 성과를 'Guess Who?'와 같은 다른 정보 수집 과제에도 적용했다. 유사한 추론 및 코드 기반 전략을 사용한 결과, Llama 4 Scout의 성공률은 30%에서 72% 이상으로, GPT-4o는 62%에서 90%까지 높아졌다. 다만 모델들이 발전했음에도 숙련된 인간 플레이어를 완전히 능가하기는 어려웠으며, 매우 복잡한 질의응답에는 여전히 한계를 보였다. 가브리엘 그랜드(Gabriel Grand)와 제이콥 안드레아스(Jacob Andreas)가 이끄는 연구팀은 이 연구 결과를 4월 국제학습표현학회(ICLR)에서 구두 발표했으며, 향후 분자 구조 식별과 같은 과학적 발견 분야에 AI 에이전트가 활용될 가능성을 제시했다.