OpenAI, 청소년 보호 위한 gpt-oss-safeguard 정책 공개
OpenAI
2026년 3월 31일 (화)
- •OpenAI가 오픈 웨이트 모델인 gpt-oss-safeguard를 위한 프롬프트 기반 안전 정책을 발표했다.
- •해당 프레임워크는 유해한 신체 이미지, 위험한 활동, 역할극 등 6가지 핵심 위험 영역을 관리한다.
- •개발자 협업을 지원하기 위해 관련 안전 정책을 ROOST 모델 커뮤니티를 통해 오픈 소스로 공개했다.
OpenAI가 청소년 대상 AI 서비스를 구축하는 개발자들을 위해 특화된 안전 정책 세트를 선보였다. 이는 경직된 하드코딩 규칙 대신, 자사의 오픈 웨이트 안전 모델인 gpt-oss-safeguard에서 작동하는 자연어 프롬프트 형태로 구성된 것이 특징이다. 개발자들은 이러한 템플릿을 활용해 콘텐츠를 분류하고 필터링하는 자동화 시스템인 분류기를 더욱 간소하게 제작할 수 있다. 이에 따라 AI와의 상호작용이 연령에 적합하고 안전하게 유지될 수 있는 기반이 마련되었다.
해당 정책은 노골적인 폭력, 유해한 신체상, 위험한 행동 챌린지, 로맨틱 역할극, 그리고 연령 제한 품목에 대한 접근 등 청소년 사용자에게 민감한 6가지 핵심 영역에 집중한다. 이러한 프롬프트를 통해 개발자들은 범용 안전 필터보다 정밀하게 사용자 생성 콘텐츠를 실시간으로 필터링하거나 사후 감사를 수행할 수 있다. 특히 이는 성인 사용자와는 차별화된, 청소년만을 위한 세밀한 디지털 보호 체계와 모더레이션이 필요하다는 업계의 인식을 반영하고 있다.
또한 투명하고 협력적인 생태계 조성을 위해 관련 정책을 ROOST 모델 커뮤니티에 전격 공개했다. 이러한 오픈 소스 방식은 개발자들이 각국의 언어나 특정 문화적 맥락에 맞춰 프레임워크를 최적화하도록 장려한다. 실제로 OpenAI는 커먼 센스 미디어와 같은 단체와 협력하며, 추상적인 안전 원칙과 이를 실제 운영 환경에서 구현하기 위한 기술적 도구 사이의 간극을 좁히려는 노력을 지속하고 있다.