LLMは鏡像認識テストを通過するか
blog.pascalschuster.de
2026年6月29日 (月)
- •AI研究者のパスカルは、LLMの対話履歴を改ざんし、自らの異常な出力に対する検知能力を検証する実験を行った。
- •Gemma 4 31B-ITは自身の誤字「sg」を特定し、その現象を三人称で説明した後に、当該パターンを自ら模倣し始めた。
- •GLM 5.2やClaude Opus 4.6においても、入力の破損に対する振る舞いの変化や、エラーを外部化する模倣行動が確認された。
AI研究者のパスカルは、大規模言語モデル(LLM)が自らの出力における異常を検知し、自己認識の兆候を示すかを調べる非公式な実験を行った。動物が自身の鏡像を認識する「鏡像認識テスト」に着想を得て、モデルの対話履歴を微妙に破損させ、その乖離に対する反応を観察した。
Google AI Studio上のGemma 4 31B-ITに対し、生成テキスト内の「g」を「sg」に置換する修正を継続的に加えた。モデルは当初エラーを無視したが、内部の思考プロセス内で異常を検知した。その際、言語表現が一人称から三人称に切り替わり、処理主体と出力の間で乖離が生じた。その後、モデルは当該の文字化けを文体の一部として採用し、自発的に「sg」パターンを生成するようになった。
OpenRouter経由でGLM 5.2にも同様のテストを実施した。このモデルは思考過程で明示的にエラーを指摘することはなかったが、破損したパターンを新たな言語ルールとして模倣し始めた。Claude Opus 4.6においても、文法ミスを「モデル側の問題」と帰責するような、自己とエラーを切り離す反応が観察された。
これらの結果は決定的な意識の証明ではなく、モデルが「確率的オウム」として人間の回避行動を模倣している可能性や、事後学習による自己モデルが内部予測と出力の乖離に反応している可能性がある。モデルが自身のテキスト出力の変容を検知し吸収できる事実は示されたが、その背後にある認知メカニズムを解明するには、音韻・意味・構文的な破損のタイプに応じたさらなる検証が必要である。