大規模言語モデルにおける「逆転の呪い」の発見
arXiv
2026年6月24日 (水)
- •大規模言語モデルが学習済み関係の逆方向を推論できない「逆転の呪い」が研究で判明した。
- •GPT-3およびLlama-1を用いた微調整試験で、「AはBである」という学習から「BはAである」を導き出せないことが示された。
- •GPT-4は有名人の母親を特定する質問に79%の精度で答えたが、その子供を問う逆の質問では33%まで低下した。
研究者らは、大規模言語モデルが「AはBである」という形式で学習した際、その逆である「BはAである」という関係を一般化できない「逆転の呪い」と呼ばれる欠陥を特定した。この現象により、学習データ内に双方向の関係性を示す強いパターンが存在していても、モデルは自動的にその関係を推論することができない。例えば「ワレンチナ・テレシコワは初めて宇宙へ行った女性だ」と学習したモデルは、「初めて宇宙へ行った女性は誰か」という問いに対して正確に回答できない。
この制約は、GPT-3やLlama-1を用いた架空の事実(「ユライア・ホーソーンはアビサル・メロディーズの作曲家だ」など)に関する微調整試験で実証された。モデルは逆のクエリで質問されると、作曲家を特定することに一貫して失敗した。「逆転の呪い」は様々なモデルサイズや系列で堅牢に確認され、標準的なデータ拡張手法でも改善しなかった。モデルが逆方向の関係を推論できるのは、その情報がコンテキストウィンドウ内に明示的に与えられた場合に限定される。
ChatGPT(GPT-3.5およびGPT-4)を対象にした現実の有名人データ評価でも、この失敗が確認された。親子の関係を問う際、親の名前を特定する質問ではGPT-4は高い精度を示した。しかし、対象を逆にして母親から子供を問う質問では精度が著しく低下した。GPT-4は順方向の質問には79%の確率で正解したが、逆方向の質問の正解率は33%にとどまり、学習した関連付けに明確な非対称性があることが浮き彫りとなった。