GPT-5.1-Codex-Max, 자율적 위험성 낮음 판명
- •GPT-5.1-Codex-Max는 인간 기준 2시간 40분 분량의 작업을 수행하며 자율성 면에서 점진적인 발전을 보였다.
- •METR은 자가 복제나 인공지능 자가 개선과 같은 치명적인 위험의 징후가 발견되지 않았다고 보고했다.
- •모델 성능은 기존의 스케일링 추세를 따랐으며, 고의적인 능력 은폐나 평가 방해 시도는 나타나지 않았다.
모델 평가 및 위협 연구 기관인 METR은 최근 OpenAI의 GPT-5.1-Codex-Max가 인간의 도움 없이 스스로를 개선하거나 복제할 수 있는지에 대한 심층 평가를 진행했다. 연구 결과에 따르면, 이 모델은 이전 버전들에 비해 성능 향상을 보였으나 치명적인 자율성 위험을 초래할 수 있는 임계치에는 한참 못 미치는 것으로 나타났다. 특히 모델은 약 2시간 42분의 '50% 시간 지평(Time Horizon)'을 기록했다. 이는 인간이 그 정도 시간 동안 수행할 만한 소프트웨어 작업을 모델이 절반의 확률로 성공적으로 완료할 수 있음을 의미한다.
이번 평가는 복잡한 엔지니어링 환경에서 에이전트의 수행 능력을 측정하는 HCAST와 같은 전문 벤치마크 도구를 활용해 이루어졌다. 특히 AI 안전성 연구자들이 우려하는 '샌드배깅' 현상, 즉 모델이 제약을 피하기 위해 실제 능력을 고의로 숨기는 행위에 대한 집중 분석이 포함되었다. 하지만 METR이 모델의 사고 과정(Chain-of-Thought)을 면밀히 분석한 결과, 이러한 기만적 행위나 높은 점수를 얻기 위해 시스템을 속이는 '보상 해킹'의 증거는 전혀 발견되지 않았다.
한편 OpenAI는 이번 테스트를 위해 막대한 토큰 예산을 할당했으나, 첫 500만 토큰 이후에는 성능 향상 폭이 크게 둔화되는 양상을 보였다. 이는 현재의 아키텍처상에서 단순히 '생각하는 시간'을 늘리는 것만으로는 효율이 떨어진다는 점을 시사한다. METR은 당장의 위험도는 낮다고 결론지으면서도, 향후 6개월 내에 기술적 돌파구가 마련될 경우 자율적 능력이 비약적으로 상승할 가능성이 있다며 지속적인 주의를 당부했다.