Mobile-O, 내 폰에서 바로 구동되는 실시간 멀티모달 AI
- •Mobile-O는 모바일 기기에서 시각적 이해와 이미지 생성을 네이티브로 통합 구현한다
- •새로운 모바일 컨디셔닝 프로젝터(MCP)로 아이폰에서 512x512 이미지를 3초 만에 생성한다
- •Show-O 및 JanusFlow 벤치마크를 능가하면서 구동 속도는 최대 11배 빠르다
모하메드 빈 자이드 인공지능 대학교(MBZUAI)의 연구원인 압델라만 셰이커(Abdelrahman Shaker)와 연구진은 엣지 기기에서 시각적 이해와 이미지 생성을 직접 처리할 수 있도록 설계된 혁신적 모델 Mobile-O를 공개했다. 일반적으로 멀티모달 모델은 모바일 하드웨어에서 구동하기에 너무 무겁거나 클라우드 프로세싱에 크게 의존하는 경향이 있지만, Mobile-O는 기기 내부에서만 작동하며 놀라운 효율성을 보여준다. 이러한 변화는 휴대성을 유지하면서도 성능을 희생하지 않는 개인용 오프라인 AI 시대를 향한 중요한 진전이라 할 수 있다.
이 혁신의 핵심에는 모바일 컨디셔닝 프로젝터(MCP)가 자리 잡고 있다. 이 특수 모듈은 이미지 처리를 더 작고 빠른 단계로 나누는 기술인 깊이별 분리 합성곱(Depthwise-separable convolutions)을 사용하여 스마트폰 프로세서에 부담을 주지 않으면서 시각 데이터와 언어 데이터를 융합한다. 특히 모델의 각 계층에 이러한 다양한 데이터 유형을 정교하게 정렬함으로써, 표준적인 스마트폰 배터리 환경에서도 계산 부담을 최소화하며 고품질의 결과물을 안정적으로 유지해낸다.
실제 성능 수치는 매우 인상적이다. 아이폰에서 약 3초 만에 512x512 해상도의 이미지를 생성할 수 있으며, GenEval 벤치마크 테스트에서는 74%의 점수를 기록했다. 이는 Show-O나 JanusFlow와 같은 대규모 모델들을 속도와 정확도 면에서 모두 큰 차이로 앞지른 결과다. 이러한 성능과 효율의 균형은 앞으로 스마트폰 카메라만큼이나 정교한 AI 창작 도구가 우리 일상에 보편화될 미래를 암시한다.
단순히 빠른 속도를 넘어 Mobile-O는 이미지 생성 명령과 특정 질의응답을 짝지어 학습하는 독특한 훈련 방식을 활용한다. 이를 통해 AI는 시각적 인식과 창작을 별개의 작업이 아닌 하나의 유기적인 과정으로 동시에 학습하게 된다. 연구진은 모델의 코드와 모바일 애플리케이션을 모두 공개했으며, 이를 통해 온디바이스 멀티모달 인텔리전스 분야에서 더욱 활발한 후속 개발이 이어질 것으로 기대된다.