이 기사의 핵심 내용은?

Tsinghua University(칭화대학교) 연구진, 확산 모델의 무작위 토큰 생성 방식이 핵심 토큰을 건너뛰어 추론 능력을 제한한다는 사실을 규명했다. 새로운 'JustGRPO' 기법은 생성 순서를 전략적으로 제어하여 복잡한 수학 문제 해결 능력을 대폭 끌어올렸다. 확산 모델 고유의 빠른 병렬 디코딩 속도를 유지하면서도 GSM8K 벤치마크에서 89.1%의 높은 정확도를 기록했다.

자유의 함정: 확산 언어 모델의 추론 성능을 깨우는 법

•Tsinghua University(칭화대학교) 연구진, 확산 모델의 무작위 토큰 생성 방식이 핵심 토큰을 건너뛰어 추론 능력을 제한한다는 사실을 규명했다.
•새로운 'JustGRPO' 기법은 생성 순서를 전략적으로 제어하여 복잡한 수학 문제 해결 능력을 대폭 끌어올렸다.
•확산 모델 고유의 빠른 병렬 디코딩 속도를 유지하면서도 GSM8K 벤치마크에서 89.1%의 높은 정확도를 기록했다.

•Tsinghua University(칭화대학교) 연구진, 확산 모델의 무작위 토큰 생성 방식이 핵심 토큰을 건너뛰어 추론 능력을 제한한다는 사실을 규명했다.
•새로운 'JustGRPO' 기법은 생성 순서를 전략적으로 제어하여 복잡한 수학 문제 해결 능력을 대폭 끌어올렸다.
•확산 모델 고유의 빠른 병렬 디코딩 속도를 유지하면서도 GSM8K 벤치마크에서 89.1%의 높은 정확도를 기록했다.

확산 언어 모델은 기존 모델의 엄격한 좌우 순서 방식을 벗어나, 토큰을 자유로운 순서로 생성할 수 있다는 점으로 큰 기대를 모아왔다. 하지만 Tsinghua-LeapLab(칭화대학교 LeapLab) 연구진은 이러한 자유가 오히려 논리적 허점이 되는 '유연성의 함정(Flexibility Trap)'을 발견했다. 연구에 따르면 모델에 완전한 자유를 주었을 때, 논리적 탐색에 필수적인 '불확실성이 높은 토큰'을 오히려 건너뛰는 경향이 확인됐다. 결국 모델은 가장 쉬운 답변 경로만을 선택하게 되며, 이는 복잡한 수학이나 코딩 문제에서 치명적인 성능 저하로 이어진다. 이를 해결하기 위해 연구팀은 JustGRPO라는 새로운 방법론을 도입했다. 무질서한 생성 순서를 고집하는 대신, GRPO 기법을 통해 여러 답변 후보를 비교하며 모델의 논리를 정교하게 다듬는 방식이다. 결과는 놀라웠다. GSM8K 수학 벤치마크에서 89.1%의 정확도를 달성하며 강력한 추론 성능을 입증했다. 특히 고무적인 것은 확산 모델의 핵심 강점인 병렬 디코딩 능력을 온전히 유지했다는 점이다. 덕분에 기존 자기회귀 모델보다 훨씬 빠른 속도로 텍스트를 생성한다. 때로는 적절한 제약이 더 똑똑한 AI를 만드는 열쇠가 된다는 사실을 이번 연구가 증명한 셈이다.