OpenAI, 현실 세계 폭력 방지를 위한 안전 조치 강화
- •OpenAI, ChatGPT 내 폭력적 의도 탐지 및 완화 위한 안전 프로토콜 업데이트
- •자동화된 위험 모니터링 시스템과 인간 참여형 검토 프로세스 결합
- •확장된 자녀 보호 기능 및 신뢰할 수 있는 연락처 기능 도입
생성형 AI 모델이 일상 깊숙이 자리 잡으면서, 디지털 텍스트 생성과 현실 세계의 실제적 영향 사이의 경계가 안전 공학의 핵심 과제로 떠올랐다. OpenAI는 사용자의 질문이 현실의 위험으로 이어질 수 있는 지점을 관리하기 위한 포괄적인 안전 체계를 공개했다. 이는 AI 모델이 개인을 향한 협박이나 공공 안전을 위협하는 행위를 계획하는 데 악용되지 않도록 선제적으로 대응하겠다는 의지다.
이번 접근 방식의 중심에는 '모델 사양(Model Spec)'이 자리한다. 이는 AI의 유용성과 사용자의 자유를 보장하는 동시에, 불법적이거나 유해한 활동을 돕지 않겠다는 명확하고 절대적인 지침이다. 모델은 단순한 역사적 사실에 대한 호기심과 실제적인 위험 지시를 구분하도록 설계되었으며, 피해를 유발할 수 있는 구체적인 운영 세부 사항을 제외함으로써 안전을 확보한다.
기술적 구현은 고도화된 필터링 및 탐지 구조에 의존한다. 여기에는 입력된 텍스트를 분류하여 정책 위반 가능성을 찾아내는 자동화된 Classifier(분류기)와 복잡한 상황을 정밀하게 검토하는 인간의 검토 과정이 포함된다. 특히 인간 검토자는 단일 질문의 유해성뿐만 아니라 전체적인 대화 맥락을 파악하여 장기적으로 발생할 수 있는 위험을 식별하는 역할을 수행한다.
무엇보다 안전 조치는 단순히 질문을 차단하는 데 그치지 않고 위기 대응 자원과 연동된다. AI가 사용자의 고통이나 자해 가능성을 탐지하면 대화 수위를 낮추고 전문적인 정신 건강 지원 서비스를 연결하여 도움의 창구 역할을 수행한다.
또한, 안전은 기술적인 문제인 동시에 사회적인 과제라는 점을 인정하며 신뢰할 수 있는 연락처 기능과 세분화된 자녀 보호 기능을 도입했다. 더불어 시스템의 취약점을 파악하는 Red Teaming(레드팀 테스트)을 강화하고, 정신과 의사 및 법 집행 기관 등 다학제적 전문가들의 의견을 수렴하여 더욱 탄력적인 안전 생태계를 구축하고 있다.