GUI 기반 AI 에이전트 표준화 프레임워크, ClawGUI 공개
- •ClawGUI, 시각적 인터페이스 기반 AI 에이전트의 학습, 평가, 배포를 통합하는 풀스택 인프라 제공
- •Android, iOS, HarmonyOS 등 다양한 모바일 플랫폼 환경에서의 실제 배포 지원
- •ClawGUI-2B 모델, MobileWorld 벤치마크에서 기존 대비 6% 향상된 17.1% 성공률 달성
지난 수십 년간 컴퓨터는 인간이 버튼, 메뉴, 텍스트 필드와 같은 GUI를 통해 상호작용하도록 설계되었다. 이러한 인터페이스는 인간에게는 직관적이지만, 인공지능이 이를 탐색하는 과정은 기술적으로 매우 까다롭다. 대부분의 AI 에이전트는 API를 통해 소프트웨어의 백엔드와 통신하는데, 이는 특정 프로그래밍 환경이 갖춰진 경우에만 작동한다는 한계가 있다.
최근 주목받는 GUI 에이전트는 인간처럼 화면을 '보고' 탭하거나 스와이프하며 작업을 수행하도록 설계되었다. 하지만 이러한 에이전트 개발은 체계적인 표준이 부족해 연구마다 학습 환경과 평가 프로토콜이 파편화되어 있었다. 특히 연구실 환경에서 검증된 모델을 실제 안드로이드나 iOS 환경으로 옮기는 과정에서 많은 병목 현상이 발생하곤 했다.
저장대학교에서 개발한 ClawGUI는 이러한 문제를 해결하기 위해 등장한 통합 풀스택 인프라다. 이 프레임워크는 강화 학습을 활용한 정교한 파이프라인을 도입하여, 에이전트가 매 단계마다 세밀한 피드백을 통해 학습할 수 있도록 지원한다. 결과적으로 에이전트는 최종 결과물에만 의존하지 않고 매 동작의 정당성을 학습하게 된다.
평가 방식의 표준화 또한 ClawGUI가 기여한 핵심 성과 중 하나다. 기존에는 연구 그룹마다 각기 다른 기준을 사용해 성능 비교가 어려웠으나, 이 프레임워크는 여러 벤치마크를 관통하는 엄격한 평가 체계를 도입했다. 실제로 기존 모델 대비 95.8%의 높은 재현율을 기록하며 업계의 표준 지표로서 기능할 수 있음을 증명했다.
무엇보다 ClawGUI는 실제 하드웨어에서의 운용 능력에 집중했다. 안드로이드와 HarmonyOS 등을 아우르는 배포 환경은 물론, 지속적인 메모리 통합을 통해 사용자의 선호를 기억하는 기능도 갖췄다. 이는 복잡하고 정돈되지 않은 실제 소프트웨어 환경에서도 AI가 실질적인 도구로 작동할 수 있음을 시사한다.