Preferred Networks, 자율주행 로봇용 경량 VLM 'PLaMo 2.1-VL' 출시
- •Preferred Networks가 자율주행 엣지 디바이스를 위한 고정밀 경량 VLM인 PLaMo 2.1-VL을 공개했다.
- •8B 및 2B 매개변수 모델로 구성되어 공장 자동화 및 인프라 점검에 최적화되었다.
- •유사 오픈소스 모델 대비 시각적 접지 및 VQA 분야에서 탁월한 제로샷 성능을 입증했다.
Preferred Networks(PFN)가 자율주행 하드웨어의 제약을 극복하기 위해 설계된 차세대 VLM인 PLaMo 2.1-VL을 선보였다. 일반적인 AI 어시스턴트와 달리, PLaMo 2.1-VL은 네트워크 접근이 제한적이거나 전력 효율이 중요한 드론 및 산업용 로봇과 같은 엣지 디바이스에서 로컬로 구동되도록 최적화되었다.
이번에 공개된 모델은 8B와 2B 두 가지 크기로, 산업계 기준으로는 비교적 소형 모델에 속한다. 하지만 시각적 질의응답(VQA)과 시각적 접지 측면에서 뛰어난 성능을 발휘하여 자율주행 시스템이 단순히 객체를 인식하는 것을 넘어 상황을 언어로 설명할 수 있게 돕는다. 이는 산업 현장에서 블랙박스형 AI 의사결정이 가진 위험성을 크게 줄여준다.
연구팀은 특히 시맨틱 이해와 위치 파악이라는 기술적 난제를 해결하는 데 집중했다. 모델은 동적 타일링 방식을 통해 다양한 해상도와 화면 비율의 이미지를 처리할 수 있어, 카메라 시야가 변화하는 상황에서도 안정적인 데이터를 유지한다. 또한 고급 데이터 합성 기술을 활용해 제로샷 학습이 가능하여, 별도의 방대한 추가 훈련 없이도 공장 도구 인식이나 인프라 이상 탐지를 수행할 수 있다.
시각 데이터와 텍스트 간의 고품질 정렬을 최우선으로 고려한 PLaMo 2.1-VL은 정밀도와 언어 이해도 면에서 기존 오픈소스 모델들을 뛰어넘으며 엣지 AI의 새로운 표준을 제시했다. 이러한 발전은 고도화된 시각 지능을 현장에 필요한 하드웨어에 직접 구현하는, 더욱 전문적이고 효율적인 AI 시대로의 전환을 의미한다.