이 기사의 핵심 내용은?

ServiceNow가 데스크톱 자동화 에이전트 학습을 위해 전문가의 작업 과정을 담은 55시간 분량의 데이터셋인 CUA-Suite를 출시했다. VideoCUA는 87개 애플리케이션에서 수행된 1만 개의 인간 작업 과정을 초당 30프레임의 화면 녹화 및 커서 궤적과 함께 제공한다. 초기 벤치마크 결과, 기존 AI 모델들은 데스크톱 작업 수행 시 60%라는 높은 실패율을 기록하며 기술적 한계를 드러냈다.

ServiceNow, 컴퓨터 조작 AI용 대규모 비디오 데이터셋 공개

•ServiceNow가 데스크톱 자동화 에이전트 학습을 위해 전문가의 작업 과정을 담은 55시간 분량의 데이터셋인 CUA-Suite를 출시했다.
•VideoCUA는 87개 애플리케이션에서 수행된 1만 개의 인간 작업 과정을 초당 30프레임의 화면 녹화 및 커서 궤적과 함께 제공한다.
•초기 벤치마크 결과, 기존 AI 모델들은 데스크톱 작업 수행 시 60%라는 높은 실패율을 기록하며 기술적 한계를 드러냈다.

•ServiceNow가 데스크톱 자동화 에이전트 학습을 위해 전문가의 작업 과정을 담은 55시간 분량의 데이터셋인 CUA-Suite를 출시했다.
•VideoCUA는 87개 애플리케이션에서 수행된 1만 개의 인간 작업 과정을 초당 30프레임의 화면 녹화 및 커서 궤적과 함께 제공한다.
•초기 벤치마크 결과, 기존 AI 모델들은 데스크톱 작업 수행 시 60%라는 높은 실패율을 기록하며 기술적 한계를 드러냈다.

컴퓨터 화면을 인간처럼 자유자재로 다루는 AI를 학습시키는 과정은 그동안 고품질 데이터의 부족으로 인해 큰 난관에 봉착해 있었다. 기존 데이터셋의 대부분은 정적인 스크린샷에 의존해왔는데, 이는 커서의 유려한 움직임이나 메뉴가 열리는 세밀한 애니메이션 효과 등을 제대로 포착하지 못한다는 치명적인 단점이 있었다.

ServiceNow의 연구진은 이러한 문제를 해결하기 위해 컴퓨터 조작 에이전트(Computer-use agents)를 위한 600만 개 이상의 비디오 프레임으로 구성된 CUA-Suite를 전격 공개했다. 이 데이터셋은 전문가가 다양한 업무용 소프트웨어에서 수행한 약 1만 개의 작업을 초당 30프레임의 연속 영상으로 담아낸 것이 특징이다. 특히 모든 커서의 운동학적 궤적과 시각적 변화를 기록함으로써, AI가 단순히 최종 결과물만 보는 것이 아니라 인간 상호작용의 시간적 역동성을 깊이 있게 학습할 수 있도록 돕는다.

해당 도구 모음에는 복잡한 환경 내 에이전트의 계획 수립 및 실행 능력을 테스트하는 UI-Vision 벤치마크도 포함되었다. 초기 테스트 결과, 최첨단 파운데이션 모델들조차 전문 데스크톱 애플리케이션 환경에서는 약 60%의 확률로 작업 수행에 실패하며 업계에 큰 경종을 울렸다. 데이터 공개를 기점으로 시각적 월드 모델 및 범용 스크린 파싱인 그라운딩 연구가 가속화되어, 더욱 정교한 자율 디지털 어시스턴트 구현에 한 걸음 더 다가설 것으로 기대된다.

컴퓨터 화면을 인간처럼 자유자재로 다루는 AI를 학습시키는 과정은 그동안 고품질 데이터의 부족으로 인해 큰 난관에 봉착해 있었다. 기존 데이터셋의 대부분은 정적인 스크린샷에 의존해왔는데, 이는 커서의 유려한 움직임이나 메뉴가 열리는 세밀한 애니메이션 효과 등을 제대로 포착하지 못한다는 치명적인 단점이 있었다.

ServiceNow의 연구진은 이러한 문제를 해결하기 위해 컴퓨터 조작 에이전트(Computer-use agents)를 위한 600만 개 이상의 비디오 프레임으로 구성된 CUA-Suite를 전격 공개했다. 이 데이터셋은 전문가가 다양한 업무용 소프트웨어에서 수행한 약 1만 개의 작업을 초당 30프레임의 연속 영상으로 담아낸 것이 특징이다. 특히 모든 커서의 운동학적 궤적과 시각적 변화를 기록함으로써, AI가 단순히 최종 결과물만 보는 것이 아니라 인간 상호작용의 시간적 역동성을 깊이 있게 학습할 수 있도록 돕는다.

해당 도구 모음에는 복잡한 환경 내 에이전트의 계획 수립 및 실행 능력을 테스트하는 UI-Vision 벤치마크도 포함되었다. 초기 테스트 결과, 최첨단 파운데이션 모델들조차 전문 데스크톱 애플리케이션 환경에서는 약 60%의 확률로 작업 수행에 실패하며 업계에 큰 경종을 울렸다. 데이터 공개를 기점으로 시각적 월드 모델 및 범용 스크린 파싱인 그라운딩 연구가 가속화되어, 더욱 정교한 자율 디지털 어시스턴트 구현에 한 걸음 더 다가설 것으로 기대된다.