이 기사의 핵심 내용은?

Qwen3-235B 모델, AMD Instinct MI300X 가속기를 통해 토큰 생성 속도 2배 이상 향상 새로운 PTPC 양자화 기법 도입으로 표준 블록 스케일링 대비 효율성 15~30% 개선 멀티모달 모델 Qwen3-VL, rocJPEG 기반 GPU 가속으로 이미지 디코딩 속도 7배 단축

Qwen3, AMD MI300X에서 추론 지연 시간 대폭 단축

•Qwen3-235B 모델, AMD Instinct MI300X 가속기를 통해 토큰 생성 속도 2배 이상 향상
•새로운 PTPC 양자화 기법 도입으로 표준 블록 스케일링 대비 효율성 15~30% 개선
•멀티모달 모델 Qwen3-VL, rocJPEG 기반 GPU 가속으로 이미지 디코딩 속도 7배 단축

Alibaba Cloud의 Qwen 팀이 AMD와 협력하여 MI300X 시리즈 GPU에서 구동되는 플래그십 모델 Qwen3의 비약적인 성능 향상을 발표했다. 특히 SGLang 프레임워크를 활용해 2,350억 개의 파라미터를 보유한 거대 모델 Qwen3-235B의 토큰 생성 속도(TPOT)를 2.12배나 끌어올리는 성과를 거두었다. 이러한 기술적 돌파구는 속도가 주요 병목 현상이었던 대화형 서비스에서 대규모 AI 도입의 경제성을 크게 높여줄 것으로 기대된다.

이번 최적화의 핵심은 PTPC(Per-Token Activation, Per-Channel Weight)라고 불리는 정교한 양자화 기술이다. 이 방식은 모델 가중치를 8비트 부동소수점(FP8)으로 압축하면서도 정확도 손실을 방지하며, 하드웨어의 기본 연산 유닛에 최적화되도록 설계되었다. 결과적으로 데이터 대기 시간으로 인해 연산 유닛이 유휴 상태가 되는 것을 방지함으로써, PTPC는 기존 스케일링 방식보다 최대 30% 더 우수한 성능을 발휘한다.

멀티모달 작업에서도 큰 진전이 있었다. Qwen3-VL 변체는 이제 고해상도 이미지를 훨씬 매끄럽게 처리한다. 압축된 이미지 파일을 사용 가능한 데이터로 변환하는 디코딩 과정을 rocJPEG 라이브러리를 통해 GPU로 오프로딩함으로써, 단일 이미지당 지연 시간을 27ms에서 4ms로 대폭 줄였다. 여기에 여러 GPU에 걸친 시각 처리 병렬화가 더해지면서, 복잡한 시각 정보 입력 시에도 모델의 전체 응답 속도가 저하되지 않도록 구현되었다.

Alibaba Cloud의 Qwen 팀이 AMD와 협력하여 MI300X 시리즈 GPU에서 구동되는 플래그십 모델 Qwen3의 비약적인 성능 향상을 발표했다. 특히 SGLang 프레임워크를 활용해 2,350억 개의 파라미터를 보유한 거대 모델 Qwen3-235B의 토큰 생성 속도(TPOT)를 2.12배나 끌어올리는 성과를 거두었다. 이러한 기술적 돌파구는 속도가 주요 병목 현상이었던 대화형 서비스에서 대규모 AI 도입의 경제성을 크게 높여줄 것으로 기대된다.

이번 최적화의 핵심은 PTPC(Per-Token Activation, Per-Channel Weight)라고 불리는 정교한 양자화 기술이다. 이 방식은 모델 가중치를 8비트 부동소수점(FP8)으로 압축하면서도 정확도 손실을 방지하며, 하드웨어의 기본 연산 유닛에 최적화되도록 설계되었다. 결과적으로 데이터 대기 시간으로 인해 연산 유닛이 유휴 상태가 되는 것을 방지함으로써, PTPC는 기존 스케일링 방식보다 최대 30% 더 우수한 성능을 발휘한다.

멀티모달 작업에서도 큰 진전이 있었다. Qwen3-VL 변체는 이제 고해상도 이미지를 훨씬 매끄럽게 처리한다. 압축된 이미지 파일을 사용 가능한 데이터로 변환하는 디코딩 과정을 rocJPEG 라이브러리를 통해 GPU로 오프로딩함으로써, 단일 이미지당 지연 시간을 27ms에서 4ms로 대폭 줄였다. 여기에 여러 GPU에 걸친 시각 처리 병렬화가 더해지면서, 복잡한 시각 정보 입력 시에도 모델의 전체 응답 속도가 저하되지 않도록 구현되었다.