AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기

Diffusion Transformer 훈련 가속화하는 DAR 기법 공개

Diffusion Transformer 훈련 가속화하는 DAR 기법 공개

HuggingFace
2026년 5월 26일 (화)
  • •연구진은 Diffusion Transformer의 정보 흐름을 최적화하는 DAR(Diffusion-Adaptive Routing)을 도입했다.
  • •DAR은 ImageNet 데이터셋에서 훈련 반복 횟수를 8.75배 줄이고 FID 점수를 9.67에서 7.56으로 향상시켰다.
  • •이 기법은 기존 REPA와 결합하여 초기 훈련 속도를 2배 높이는 성능을 보였다.
  • •연구진은 Diffusion Transformer의 정보 흐름을 최적화하는 DAR(Diffusion-Adaptive Routing)을 도입했다.
  • •DAR은 ImageNet 데이터셋에서 훈련 반복 횟수를 8.75배 줄이고 FID 점수를 9.67에서 7.56으로 향상시켰다.
  • •이 기법은 기존 REPA와 결합하여 초기 훈련 속도를 2배 높이는 성능을 보였다.

연구진이 Diffusion Transformer(DiT)의 레이어 간 정보 전달 방식을 최적화하는 새로운 메커니즘인 DAR(Diffusion-Adaptive Routing)을 선보였다. 현대 영상 생성 모델의 핵심인 DiT는 기존 트랜스포머 구조에서 파생된 표준 잔차 연결을 사용해 왔다. 연구진은 이를 심도와 노이즈 제거 시간 단계(노이즈에서 이미지를 정교화하는 반복 과정) 전반에 걸쳐 분석한 결과, 기존 잔차 설계에서 전방 크기 팽창, 후방 기울기 감쇠, 블록 단위 중복성이라는 세 가지 치명적인 한계를 확인했다.

이에 연구진은 표준 잔차 덧셈을 대체할 수 있는 DAR을 개발했다. DAR은 고정된 연결과 달리 학습 가능한 시간 단계 적응형 비증분 집계 방식을 채택해 훈련 중 정보 처리를 효율화한다. 이 메커니즘은 시각적 표현 정렬 기법인 REPA와도 호환 가능하다.

ImageNet 256x256 데이터셋을 활용한 실험 결과, SiT-XL/2 모델에 적용된 DAR은 기존 9.67 대비 7.56의 FID 점수를 기록하며 유의미한 성능 향상을 입증했다. 특히 기존 모델과 동일한 화질에 도달하기까지 필요한 훈련 반복 횟수를 8.75배 단축했다. 또한 REPA와 결합 시 초기 훈련 단계에서 2배의 속도 향상을 보였다. 이 기법은 사전 훈련 이후 대규모 텍스트-이미지 생성 모델의 미세 조정 과정에서도 분포 일치 증류 기법을 통해 고주파 세부 묘사를 유지하는 데 효과적이다.

연구진이 Diffusion Transformer(DiT)의 레이어 간 정보 전달 방식을 최적화하는 새로운 메커니즘인 DAR(Diffusion-Adaptive Routing)을 선보였다. 현대 영상 생성 모델의 핵심인 DiT는 기존 트랜스포머 구조에서 파생된 표준 잔차 연결을 사용해 왔다. 연구진은 이를 심도와 노이즈 제거 시간 단계(노이즈에서 이미지를 정교화하는 반복 과정) 전반에 걸쳐 분석한 결과, 기존 잔차 설계에서 전방 크기 팽창, 후방 기울기 감쇠, 블록 단위 중복성이라는 세 가지 치명적인 한계를 확인했다.

이에 연구진은 표준 잔차 덧셈을 대체할 수 있는 DAR을 개발했다. DAR은 고정된 연결과 달리 학습 가능한 시간 단계 적응형 비증분 집계 방식을 채택해 훈련 중 정보 처리를 효율화한다. 이 메커니즘은 시각적 표현 정렬 기법인 REPA와도 호환 가능하다.

ImageNet 256x256 데이터셋을 활용한 실험 결과, SiT-XL/2 모델에 적용된 DAR은 기존 9.67 대비 7.56의 FID 점수를 기록하며 유의미한 성능 향상을 입증했다. 특히 기존 모델과 동일한 화질에 도달하기까지 필요한 훈련 반복 횟수를 8.75배 단축했다. 또한 REPA와 결합 시 초기 훈련 단계에서 2배의 속도 향상을 보였다. 이 기법은 사전 훈련 이후 대규모 텍스트-이미지 생성 모델의 미세 조정 과정에서도 분포 일치 증류 기법을 통해 고주파 세부 묘사를 유지하는 데 효과적이다.

원문 보기 (영어)·2026년 5월 26일
#diffusion transformer#dar#fid#image generation#residual connection