OpenAI, AI 모델 행동 지침 'Model Spec' 발표
- •OpenAI가 AI 행동의 정렬을 위한 명시적 규칙을 정의하는 'Model Spec' 프레임워크를 도입했다.
- •OpenAI, 개발자, 사용자의 지침에 우선순위를 부여하여 충돌을 해결하는 'Chain of Command' 시스템을 구축했다.
- •모델이 설정된 행동 지침을 얼마나 잘 준수하는지 측정하는 새로운 'Model Spec Evals' 평가 제품군을 출시했다.
OpenAI가 AI의 행동 방식을 불투명한 '블랙박스' 상태에서 명시적이고 읽기 쉬운 지침으로 전환하기 위한 종합 프레임워크인 'Model Spec'을 공개했다. AI 시스템이 고도화됨에 따라 사회는 이들 모델이 명령을 처리하고 사용자의 요구를 우선시하며 안전 경계를 유지하는 방식에 대해 명확한 청사진을 요구하고 있다. 이러한 이니셔티브의 목표는 AI의 행동이 단순히 학습 데이터의 결과가 아니라, 의도적이고 공개적인 정책 결정의 반영이 되는 예측 가능한 환경을 조성하는 것이다.
이 시스템의 핵심은 상충하는 입력값이 발생했을 때 모델이 이를 해결하는 방식을 규정하는 계층 구조인 'Chain of Command'다. OpenAI, 제3자 개발자, 그리고 최종 사용자의 지침을 체계적으로 분류함으로써 사용자가 명시적으로 요청하더라도 'Hard Rules'로 불리는 기본 안전 규칙을 우회할 수 없도록 보장한다. 이러한 위계 구조는 일관된 사용자 경험을 제공하는 표준 기본값을 유지하는 동시에, 개발자가 기본 모델 위에 특화된 도구를 구축할 수 있는 유연성을 허용한다.
이론과 실제의 간극을 메우기 위해 OpenAI는 'Model Spec Evals'라는 평가 제품군도 함께 선보였다. 해당 도구 세트는 특정 시나리오를 활용해 모델의 실제 출력이 Spec에 명시된 정책과 일치하는지를 테스트한다. OpenAI는 이러한 지침을 고정된 규칙이 아닌 진화하는 문서로 취급함으로써 AI의 행동을 반복적으로 개선해 나갈 방침이다. 이를 통해 자율 에이전트가 과학, 교육 등 복잡한 실전 과제를 수행할 때도 통제 가능하며 유익한 상태를 유지하도록 지원할 계획이다.