分散損失で小型LLMの埋め込み凝縮を抑制
chenliu-1996.github.io
2026年7月5日 (日)
- •研究チームは小型言語モデルのトークン表現が狭い角度空間に収束する「埋め込み凝縮」現象を特定した。
- •ICML 2026の論文によると、小型モデルは大規模モデルより深刻な埋め込み崩壊を起こし、表現力が制限されることが判明した。
- •研究チームは訓練時にトークン表現の角度を均一に広げる「分散損失」を開発し、埋め込み凝縮の緩和を試みた。
国際会議ICML 2026において、小型言語モデル内の埋め込み凝縮(Embedding Condensation)という幾何学的現象が報告された。これはトランスフォーマー層を通過する際、トークンの埋め込みが狭い円錐状の空間に崩壊する現象で、大規模モデルよりも小型モデルで顕著に現れる。研究に参加したチェン・リウ(Chen Liu)らは、この現象がモデル初期化時から発生し、入力データセットの種類に関わらず持続することを確認した。また、知識蒸留を行ってもこの崩壊は解消されず、大規模モデルにはこの現象を抑制する固有の性質があることが示唆されている。
この課題に対し、研究チームは分散損失(Dispersion Loss)という学習目的関数を提案した。これは単位超球面上でのトークン埋め込み同士の角度的な広がりを強制することで、パラメータ数を増やさずに小型モデルの表現品質を向上させる手法だ。研究チームはGPT-2モデルのアーキテクチャを用い、MLP次元のみを変化させる実験を行った。その結果、分散損失は事前学習や途中段階での凝縮を緩和できるものの、性能向上は控えめであり、統計的な精査が必要であると結論付けた。
本研究は、モデルのサイズだけでなく、潜在表現の内部幾何学が性能に不可欠な役割を果たすことを強調している。2025年4月上旬に開始されたこのプロジェクトは、トランスフォーマー層のスタッキングに関する理論研究や画像生成における正規化の研究を基盤としている。今後はより洗練された正則化手法の開発や、ファインチューニングおよび強化学習過程での崩壊の追跡、崩壊耐性を持つアーキテクチャ設計が課題として挙げられている。