この記事の要点は？

Q: この記事の要点は？

研究チームは深層モデルの崩壊要因として「Mean Mode Screaming」を特定した 新手法「MV-Split Residuals」により、1000層規模のアーキテクチャの安定した学習が可能となった MV-Splitは信号情報を保持しつつ平均値を制御し、LayerScaleよりも高速な収束を実現する

研究チームは深層モデルの崩壊要因として「Mean Mode Screaming」を特定した新手法「MV-Split Residuals」により、1000層規模のアーキテクチャの安定した学習が可能となった MV-Splitは信号情報を保持しつつ平均値を制御し、LayerScaleよりも高速な収束を実現する

1000層のDiffusion Transformersを安定化させる新手法

•研究チームは深層モデルの崩壊要因として「Mean Mode Screaming」を特定した
•新手法「MV-Split Residuals」により、1000層規模のアーキテクチャの安定した学習が可能となった
•MV-Splitは信号情報を保持しつつ平均値を制御し、LayerScaleよりも高速な収束を実現する

2026年5月7日に発表された研究は、Diffusion Transformers（DiT）を極端な深さで安定化させるための「Mean-Variance Split（MV-Split）Residuals」という手法を導入した。この技術は「Mean Mode Screaming（MMS）」と呼ばれる構造的不安定性に対処する。MMSとは、深層モデルが平均値に支配された沈黙の崩壊状態に陥り、トークンの表現が均一化され中心的な変動が抑制される現象である。

MMSは、残差接続の書き込みに対して平均値が干渉する逆方向の衝撃によって引き起こされ、必要なデータ信号を抑制してしまう。LayerScaleのような既存の深さ安定化手法は崩壊を緩和するものの、平均モードと信号情報を伝達するモードの両方を抑制してしまい、モデルの収束を遅らせる要因となっていた。一方、MV-Splitアプローチは、平均値の経路と信号情報を伝える経路を個別に制御することで、データの忠実度を損なうことなく安定性を維持する。

この手法は、400層の単一ストリームDiTにおいて発散を抑制することに成功し、ベースラインの軌跡を維持しつつLayerScaleを上回る性能を示した。研究チームは、1000層のDiTを学習させることでこのアーキテクチャを検証し、極めて深い構成でもモデルが安定して学習可能であることを証明した。

2026年5月7日に発表された研究は、Diffusion Transformers（DiT）を極端な深さで安定化させるための「Mean-Variance Split（MV-Split）Residuals」という手法を導入した。この技術は「Mean Mode Screaming（MMS）」と呼ばれる構造的不安定性に対処する。MMSとは、深層モデルが平均値に支配された沈黙の崩壊状態に陥り、トークンの表現が均一化され中心的な変動が抑制される現象である。

MMSは、残差接続の書き込みに対して平均値が干渉する逆方向の衝撃によって引き起こされ、必要なデータ信号を抑制してしまう。LayerScaleのような既存の深さ安定化手法は崩壊を緩和するものの、平均モードと信号情報を伝達するモードの両方を抑制してしまい、モデルの収束を遅らせる要因となっていた。一方、MV-Splitアプローチは、平均値の経路と信号情報を伝える経路を個別に制御することで、データの忠実度を損なうことなく安定性を維持する。

この手法は、400層の単一ストリームDiTにおいて発散を抑制することに成功し、ベースラインの軌跡を維持しつつLayerScaleを上回る性能を示した。研究チームは、1000層のDiTを学習させることでこのアーキテクチャを検証し、極めて深い構成でもモデルが安定して学習可能であることを証明した。