이 기사의 핵심 내용은?

연구진, 초심층 모델의 붕괴 원인으로 '평균 모드 스크리밍(Mean Mode Screaming)' 규명 MV-Split 잔차(Residual) 기법으로 1000계층 아키텍처 학습 안정화 성공 MV-Split은 신호 모드 손실을 방지해 기존 LayerScale보다 빠른 수렴 속도 기록

1000계층 디퓨전 트랜스포머의 학습 안정화 기술 개발

•연구진, 초심층 모델의 붕괴 원인으로 '평균 모드 스크리밍(Mean Mode Screaming)' 규명
•MV-Split 잔차(Residual) 기법으로 1000계층 아키텍처 학습 안정화 성공
•MV-Split은 신호 모드 손실을 방지해 기존 LayerScale보다 빠른 수렴 속도 기록

2026년 5월 7일 발표된 연구에 따르면, 평균-분산 분할(Mean-Variance Split, MV-Split) 잔차 기법을 통해 디퓨전 트랜스포머(DiT)의 극단적인 계층 깊이를 안정화하는 방법이 고안됐다. 이 기술은 초심층 모델에서 발생하는 구조적 불안정성인 '평균 모드 스크리밍(MMS)' 문제를 해결한다. MMS는 모델이 평균값 중심의 붕괴 상태에 빠지면서 토큰 표현이 균질화되고 중심 변화가 억제되는 현상이다.

MMS는 잔차 계산 과정에서 평균과 일치하는 역방향 충격이 가해져 데이터 신호를 억제하는 방식으로 발생한다. 기존의 계층 안정화 기법인 LayerScale은 붕괴를 방지하지만, 평균 모드와 신호 모드를 동시에 감쇄시켜 모델의 수렴 속도를 늦추는 한계가 있었다. 연구진이 제안한 MV-Split 방식은 평균 경로를 신호 중심 경로와 분리해 조절함으로써, 데이터 충실도를 유지하면서도 학습 안정성을 확보했다.

이 기법은 400계층 단일 스트림 디퓨전 트랜스포머에서 발산 붕괴를 성공적으로 방지했으며, 기준 학습 궤적을 유지하면서도 LayerScale을 상회하는 성능을 보였다. 특히 연구진은 이를 통해 1000계층 디퓨전 트랜스포머를 안정적으로 학습시키는 데 성공하며 극단적인 깊이에서도 모델 훈련이 가능함을 입증했다.

2026년 5월 7일 발표된 연구에 따르면, 평균-분산 분할(Mean-Variance Split, MV-Split) 잔차 기법을 통해 디퓨전 트랜스포머(DiT)의 극단적인 계층 깊이를 안정화하는 방법이 고안됐다. 이 기술은 초심층 모델에서 발생하는 구조적 불안정성인 '평균 모드 스크리밍(MMS)' 문제를 해결한다. MMS는 모델이 평균값 중심의 붕괴 상태에 빠지면서 토큰 표현이 균질화되고 중심 변화가 억제되는 현상이다.

MMS는 잔차 계산 과정에서 평균과 일치하는 역방향 충격이 가해져 데이터 신호를 억제하는 방식으로 발생한다. 기존의 계층 안정화 기법인 LayerScale은 붕괴를 방지하지만, 평균 모드와 신호 모드를 동시에 감쇄시켜 모델의 수렴 속도를 늦추는 한계가 있었다. 연구진이 제안한 MV-Split 방식은 평균 경로를 신호 중심 경로와 분리해 조절함으로써, 데이터 충실도를 유지하면서도 학습 안정성을 확보했다.

이 기법은 400계층 단일 스트림 디퓨전 트랜스포머에서 발산 붕괴를 성공적으로 방지했으며, 기준 학습 궤적을 유지하면서도 LayerScale을 상회하는 성능을 보였다. 특히 연구진은 이를 통해 1000계층 디퓨전 트랜스포머를 안정적으로 학습시키는 데 성공하며 극단적인 깊이에서도 모델 훈련이 가능함을 입증했다.