이 기사의 핵심 내용은?

Salesforce는 결정론적이고 로컬 중심적인 기업 작업 실행을 위한 GUI Process Automation(GPA)을 도입했다. GPA는 클라우드 기반 시각적 추론 대신 그래프 기반 인터페이스 매칭을 사용하여 VLM 기반의 환각 현상을 제거했다. 이 새로운 도구를 통해 AI 에이전트는 Model Context Protocol 연동을 거쳐 신뢰할 수 있는 사전 기록 워크플로우를 호출할 수 있다.

Salesforce, GUI 자동화를 위한 신뢰성 있는 'GPA' 공개

•Salesforce는 결정론적이고 로컬 중심적인 기업 작업 실행을 위한 GUI Process Automation(GPA)을 도입했다.
•GPA는 클라우드 기반 시각적 추론 대신 그래프 기반 인터페이스 매칭을 사용하여 VLM 기반의 환각 현상을 제거했다.
•이 새로운 도구를 통해 AI 에이전트는 Model Context Protocol 연동을 거쳐 신뢰할 수 있는 사전 기록 워크플로우를 호출할 수 있다.

•Salesforce는 결정론적이고 로컬 중심적인 기업 작업 실행을 위한 GUI Process Automation(GPA)을 도입했다.
•GPA는 클라우드 기반 시각적 추론 대신 그래프 기반 인터페이스 매칭을 사용하여 VLM 기반의 환각 현상을 제거했다.
•이 새로운 도구를 통해 AI 에이전트는 Model Context Protocol 연동을 거쳐 신뢰할 수 있는 사전 기록 워크플로우를 호출할 수 있다.

기업 운영 환경은 경비 승인, 레거시 데이터베이스 간의 환자 기록 전송, 재고 로그 업데이트 등 화면 기반의 반복적인 작업들로 채워져 있다. 이러한 업무는 필수적이지만, 기존의 경직된 소프트웨어 스크립트나 예측 불가능한 AI 모델로 처리할 경우 오류가 발생하기 쉽다. 이에 Salesforce는 기업 워크플로우 자동화를 오랫동안 가로막아 온 '신뢰성 격차'를 해소하기 위해 GPA를 설계했다.

현재 자동화 시장은 전통적인 로봇 프로세스 자동화(RPA)와 현대적인 시각 언어 모델 사이의 양극화된 문제를 겪고 있다. 기존 RPA 도구는 아주 미세한 UI 변경만으로도 스크립트가 중단되는 등 구조적으로 취약하다. 반면, Vision-Language Model은 강력한 유연성을 제공하지만 본질적으로 확률에 의존한다는 한계가 있다. 미션 크리티컬한 비즈니스 환경에서는 90%의 정확도가 성공이 아닌 실패를 의미하며, 민감한 기업 화면 정보를 외부 클라우드 API로 전송하는 과정에서 보안 위험까지 발생한다.

Salesforce가 선보인 GPA는 이러한 역학 관계를 완전히 뒤집는다. 모델이 실시간으로 인터페이스 요소를 추측하는 대신, GPA는 사람이 워크플로우를 한 번 시연하는 과정을 기록한다. 시스템은 이 기록을 처리하여 인터페이스의 버튼, 아이콘, 텍스트 필드 등을 주변 요소와의 공간적 관계를 바탕으로 노드화된 구조적 그래프로 구축한다. 무엇보다 이 모든 과정이 로컬 환경에서 실행되므로 민감한 시각 데이터가 외부로 유출될 위험이 없다.

GPA가 작업을 수행할 때는 고가의 클라우드 호출을 통해 화면을 해석할 필요가 없다. 대신 기하학적 매칭을 수행하여 정적 좌표가 아닌 안정적인 랜드마크를 기준으로 화면을 탐색한다. 창의 크기가 바뀌거나 레이아웃이 변경되어도 시스템은 유연하게 적응하며, 기업이 요구하는 수준의 결정론적 실행을 보장한다.

이 기술의 가장 미래지향적인 측면은 Model Context Protocol과의 통합에 있다. 기록된 워크플로우를 표준화된 도구로 공개함으로써 GPA는 고차원 AI 에이전트가 이를 모듈화된 기술로 활용하게 한다. 복잡한 추론과 계획을 담당하는 AI 비서가 특정 클릭 작업을 정밀하게 수행해야 할 때 GPA 워크플로우를 호출하는 형태다. 이는 상위 수준의 지능형 오케스트레이션과 실행 계층의 결정론적 정밀함이 결합된 기업용 AI의 청사진을 제시한다.

기업 운영 환경은 경비 승인, 레거시 데이터베이스 간의 환자 기록 전송, 재고 로그 업데이트 등 화면 기반의 반복적인 작업들로 채워져 있다. 이러한 업무는 필수적이지만, 기존의 경직된 소프트웨어 스크립트나 예측 불가능한 AI 모델로 처리할 경우 오류가 발생하기 쉽다. 이에 Salesforce는 기업 워크플로우 자동화를 오랫동안 가로막아 온 '신뢰성 격차'를 해소하기 위해 GPA를 설계했다.

현재 자동화 시장은 전통적인 로봇 프로세스 자동화(RPA)와 현대적인 시각 언어 모델 사이의 양극화된 문제를 겪고 있다. 기존 RPA 도구는 아주 미세한 UI 변경만으로도 스크립트가 중단되는 등 구조적으로 취약하다. 반면, Vision-Language Model은 강력한 유연성을 제공하지만 본질적으로 확률에 의존한다는 한계가 있다. 미션 크리티컬한 비즈니스 환경에서는 90%의 정확도가 성공이 아닌 실패를 의미하며, 민감한 기업 화면 정보를 외부 클라우드 API로 전송하는 과정에서 보안 위험까지 발생한다.

Salesforce가 선보인 GPA는 이러한 역학 관계를 완전히 뒤집는다. 모델이 실시간으로 인터페이스 요소를 추측하는 대신, GPA는 사람이 워크플로우를 한 번 시연하는 과정을 기록한다. 시스템은 이 기록을 처리하여 인터페이스의 버튼, 아이콘, 텍스트 필드 등을 주변 요소와의 공간적 관계를 바탕으로 노드화된 구조적 그래프로 구축한다. 무엇보다 이 모든 과정이 로컬 환경에서 실행되므로 민감한 시각 데이터가 외부로 유출될 위험이 없다.

GPA가 작업을 수행할 때는 고가의 클라우드 호출을 통해 화면을 해석할 필요가 없다. 대신 기하학적 매칭을 수행하여 정적 좌표가 아닌 안정적인 랜드마크를 기준으로 화면을 탐색한다. 창의 크기가 바뀌거나 레이아웃이 변경되어도 시스템은 유연하게 적응하며, 기업이 요구하는 수준의 결정론적 실행을 보장한다.

이 기술의 가장 미래지향적인 측면은 Model Context Protocol과의 통합에 있다. 기록된 워크플로우를 표준화된 도구로 공개함으로써 GPA는 고차원 AI 에이전트가 이를 모듈화된 기술로 활용하게 한다. 복잡한 추론과 계획을 담당하는 AI 비서가 특정 클릭 작업을 정밀하게 수행해야 할 때 GPA 워크플로우를 호출하는 형태다. 이는 상위 수준의 지능형 오케스트레이션과 실행 계층의 결정론적 정밀함이 결합된 기업용 AI의 청사진을 제시한다.