OpenAI, AI 안전 리스크 탐지 위한 버그 바운티 출시
- •OpenAI가 AI 오남용 및 시스템적 악용 위험을 정조준한 공개 '안전 버그 바운티' 프로그램을 시작했다.
- •주요 집중 분야는 에이전틱 하이재킹, 데이터 유출, 모델의 독점적 추론 정보 노출 등이다.
- •기존의 일반적인 보안 취약점이나 단순한 탈옥 시도는 이번 안전 중심 이니셔티브의 보상 대상에서 제외된다.
OpenAI가 기존의 보안 감사가 놓칠 수 있는 잠재적 위험을 선제적으로 포착하기 위해 전용 '안전 버그 바운티(Safety Bug Bounty)' 프로그램을 도입하며 방어망을 강화하고 나섰다. 현재 운영 중인 기존 보안 프로그램이 코드 취약점 같은 전통적인 기술적 결함을 다룬다면, 이번 새로운 이니셔티브는 오직 'AI 네이티브' 위협만을 전문적으로 추적한다. 특히 사용자를 대신해 자율적으로 행동하는 에이전틱 AI 시스템이 제3자의 악의적인 텍스트에 의해 가로채기를 당해 민감한 데이터를 유출하거나 승인되지 않은 작업을 수행하는 시나리오 등이 핵심 조사 대상에 포함된다.
이 프로그램은 무엇보다 '에이전틱 리스크'에 상당한 비중을 두고 있다. 모델이 웹을 자유롭게 탐색하고 다양한 외부 도구와 상호작용하는 능력이 점차 정교해짐에 따라, 사회 공학적 해킹이나 프롬프트 인젝션에 노출될 수 있는 공격 표면도 비례해서 넓어졌기 때문이다. 또한 OpenAI는 에이전틱 행동 분석 외에도 모델의 내부 추론 프로세스와 관련된 독점 정보 유출을 찾아내는 연구자들에게도 보상을 제공한다. 이는 미래 모델의 '사고 패턴'을 보호하는 것이 모델 가중치 자체를 지키는 것만큼이나 중요한 보안 과제가 되었음을 시사한다.
한편 OpenAI는 AI가 부적절한 답변을 하도록 유도하거나 콘텐츠 필터를 우회하려는 시도인 '탈옥' 행위는 이번 프로그램의 보상 범위에서 명시적으로 제외했다. 이러한 문제는 기존과 동일하게 내부 전문가들로 구성된 비공개 레드팀 활동을 통해 지속적으로 관리될 예정이다. 결과적으로 OpenAI는 안전 연구자들을 위한 전용 창구를 마련함으로써, AI 에이전트가 일상적인 워크플로우에 깊숙이 통합될 때 발생할 수 있는 자동화된 취약점 악용과 고위험 데이터 침해에 대비해 더욱 견고한 방어 체계를 구축하고자 한다.