알리바바, 모든 기기 제어하는 GUI-Owl-1.5 공개
HuggingFace
2026년 2월 21일 (토)
- •알리바바가 데스크톱, 모바일, 웹 인터페이스를 통합 제어하는 멀티 플랫폼 에이전트 GUI-Owl-1.5를 출시했다.
- •최소 20억에서 최대 2,350억 개의 파라미터를 지원하며, OSWorld와 AndroidWorld 벤치마크에서 신기록을 경신했다.
- •새로운 MRPO 강화 학습 알고리즘을 도입해 복잡하고 긴 작업 수행 시 발생하는 플랫폼 간 마찰을 최소화했다.
알리바바의 퉁이 연구소(Tongyi Lab)가 마치 사람처럼 디지털 인터페이스를 탐색하고 조작할 수 있는 다재다능한 에이전틱 AI, GUI-Owl-1.5를 선보였다. 이 모델은 데스크톱, 모바일, 웹 브라우저 등 다양한 플랫폼을 동시에 지원하며, 기기 간에 작업을 실시간으로 전달하는 매끄러운 '클라우드-엣지' 협업 환경을 구현했다.
이번 제품군은 로컬 실행이 가능한 가벼운 2B 버전부터 강력한 성능의 235B 파라미터 모델까지 다양한 크기로 구성되어 20개 이상의 GUI 관련 벤치마크를 석권했다. 실제로 OSWorld에서 56.5점, AndroidWorld에서 71.6점을 기록하며 화면 레이아웃을 정확히 이해하고 다단계 명령을 수행하는 능력에서 비약적인 발전을 입증했다.
이러한 정밀도를 달성하기 위해 연구진은 시뮬레이션 환경과 클라우드 기반 샌드박스를 결합하여 고품질 학습 데이터를 생성하는 '하이브리드 데이터 플라이휠' 기술을 개발했다. 또한 플랫폼 전환 시의 오류를 줄이고 장기적인 과제 수행 시 집중력을 유지할 수 있도록 돕는 새로운 강화 학습 알고리즘인 MRPO를 도입했다.
한편 알리바바는 이번 모델들을 오픈소스로 공개하여 생태계 확장에 나섰다. 이에 따라 개발자들은 여러 앱을 넘나드는 여행 예약이나 복잡한 소프트웨어 기술 지원 등 고도화된 AI 비서 서비스를 더욱 정교하게 구축할 수 있는 강력한 토대를 마련하게 됐다.