OpenAI、ChatGPTの暴力抑止策を強化
- •ChatGPTの暴力的意図を検知し緩和する安全プロトコルを導入
- •自動監視システムと人間によるレビュープロセスを組み合わせた監視体制
- •ペアレンタルコントロールの拡充および信頼できる連絡先機能の実装
生成AIが日常に浸透するにつれ、デジタルなテキスト生成と現実世界への影響力という境界線は、安全工学における最重要課題となっている。OpenAIは、ChatGPTがユーザーの質問と現実の危害という危険な交差点でどのように機能するかを示す包括的なフレームワークを公表した。これは、脅迫や公共の安全を脅かす行為の計画に言語モデルが悪用されることを防ぐという、同社の積極的な姿勢の表れである。
このアプローチの核となるのが、基本的なガイドラインである「Model Spec」だ。これは利便性とユーザーの自由を優先しつつも、違法行為や有害な活動への加担を許さないという厳格な境界線を設定するものだ。モデルはユーザーの意図を解析するよう訓練されており、歴史的事実への好奇心と、実行を伴う危険な指示とを判別できる。これにより、具体的な手順を排除することで安全性を保ちながら、教育的な対話の可能性を残している。
技術的な実装には、高度なフィルタリングと検知アーキテクチャが多用されている。具体的には、入力テキストを分類しポリシー違反の兆候を見つける自動化された分類器や、リスクの高いシナリオにおける人間による厳格なレビュー体制がある。レビュー担当者は長文対話の文脈を評価し、一見無害に見える断片的な問いの背後に潜む潜在的な危険を察知する訓練を受けている。
この安全性向上策は、単に質問をブロックするだけでなく、危機介入のリソースとも統合されている。モデルがユーザーの苦悩や自傷の兆候を検知すると、対話を鎮静化させるとともに専門的な精神保健サービスへと誘導するように設計されている。これにより、単なる情報提供者ではなく、支援への架け橋としての役割を果たす。
今回のポリシー更新では、信頼できる連絡先機能や高度なペアレンタルコントロールも導入された。安全保障は技術的な課題であると同時に、社会的な挑戦でもあるためだ。システムを限界まで試し脆弱性を特定するレッドチーミングに加え、精神科医や法執行機関などの専門家による多角的な意見を取り入れ、より強靭な安全エコシステムを構築しようとしている。これはモデルの進化や社会への浸透に応じて適応し続ける、発展的なプロジェクトといえる。