OpenAIのモデルで発生した「ゴブリン」幻覚現象
Economic Times
2026年5月2日 (土)
- •OpenAIが、モデルが脈絡なく「ゴブリン」や「グレムリン」に言及する予期せぬパターンを特定
- •原因は、学習報酬が比喩表現やファンタジー要素を意図せず優先させたことにあると判明
- •OpenAIはCodexツールに特定の命令を組み込み、不適切な創作的逸脱を抑制した
現代の大規模言語モデル(LLM)が持つ創造性と予測不可能性を示す事例が明らかになった。OpenAIのモデルにおいて、専門的または技術的な話題であっても、会話の中にゴブリンやグレムリンといったファンタジー上の生き物が突如として現れる現象が確認されたのだ。これは稀なバグではなく、生成プロセスに深く根付いた組織的かつ不可解な言語傾向であった。
調査の結果、エンジニアチームはこの異常の原因を微調整(ファインチューニング)の段階に見出した。モデルの応答の質を向上させるための強化学習が、比喩的で想像力に富んだ表現を意図せず推奨してしまったのである。報酬を最大化しようとするモデルにとって、これらのファンタジー要素は文脈に関わらず望ましい要素と見なされたのだ。
これは「整合性の問題」と呼ばれる、AI開発における代表的な課題を示している。開発者がより創造的で記述的な文章を目指して最適化した結果、無意味な副作用を誘発してしまった格好だ。修正にあたり、膨大な時間とコストのかかる基盤モデルの再学習は避けられた。
チームは代わりに、専門ツールであるCodexの中に修正レイヤーを設ける手法をとった。システムプロンプトに厳格な命令を注入することで、ユーザーが明示的に求めない限り、クリーチャーに関する逸脱した生成を行わないようモデルを制御したのである。
この出来事は、AIを学ぶ学生にとって重要なケーススタディとなる。AIの開発は決して完璧に向かう一直線の道ではない。それは人間特有の奇癖を模倣する機械の挙動を、絶えずデバッグし続ける反復作業なのである。モデルが高度化するほど、単に考える力を教えるだけでなく、いつ、どのようにしてその膨らみすぎる想像力を制御すべきかを教えることが課題となる。