ByteDance, 병렬 영역 캡셔닝 모델 PerceptionDLM 공개
- •PerceptionDLM은 병렬 영역 인지를 통해 멀티모달 시각 캡셔닝 작업의 지연시간을 줄인다.
- •기본 모델은 16개 벤치마크 중 15개에서 LLaDA-V를 능가하며 Qwen2.5-VL과 경쟁한다.
- •연구진은 캡션 품질과 추론 속도 간의 균형을 측정하기 위해 ParaDLC-Bench 데이터셋을 도입했다.
바이트댄스(ByteDance)와 MSALab 연구진이 시각 이해 작업에서 효율적인 병렬 영역 인지를 수행하는 멀티모달 확산 언어 모델 PerceptionDLM을 공개했다. 2026년 6월 17일에 발표된 이 프레임워크는 기존 자기회귀 모델이 이미지 영역을 순차적으로 처리하던 한계를 해결한다. 이는 확산 기반 아키텍처의 병렬 디코딩 기능을 활용한 결과이다. 이 모델은 구조화된 어텐션 마스킹과 효율적인 프롬프팅을 사용하여 단일 디노이징 과정에서 여러 마스킹된 이미지 영역에 대한 설명을 동시에 생성한다.
PerceptionDLM-Base 아키텍처는 기존 LLaDA-V 모델보다 16개 멀티모달 벤치마크 중 15개에서 우수한 성능을 보인다. 연구 결과에 따르면 PerceptionDLM은 Qwen2.5-VL 및 InternVL3와 같은 선도적인 자기회귀 모델과 경쟁하면서도 다중 영역 캡셔닝 관련 지연시간을 크게 줄였다. 이를 평가하기 위해 저자들은 이미지당 다중 영역 마스크를 포함해 DLC-Bench를 확장한 Parallel Detailed Localized Captioning Benchmark(ParaDLC-Bench)를 개발하여 캡션 품질과 추론 효율성을 종합적으로 평가했다. 프로젝트 팀은 2026년 6월 22일에 소스 코드와 사전 학습된 모델 가중치, 평가 제품군 전체를 공개했다.
PerceptionDLM은 영역별로 하나씩 결과를 생성하던 기존의 선형적인 지연시간 증가 방식을 탈피했다. 지정된 모든 영역을 동시에 처리함으로써 캡션 정확도와 추론 효율성 사이에서 더욱 유리한 균형을 달성한다. 이번 연구는 확산 언어 모델을 통해 병렬 영역 인지를 구현한 첫 사례로, 다수의 이미지 세그먼트에 대한 분석이 필요한 고밀도 시각 인지 작업에서 해당 아키텍처의 확장 가능성을 입증했다.