이 기사의 핵심 내용은?

Amazon은 Bedrock AgentCore Browser에 운영체제 수준의 제어 기능을 탑재하여 기존 DOM 제약을 극복했다. 이제 AI 에이전트가 운영체제의 대화 상자, 보안 경고, 메뉴 등과 직접 상호작용할 수 있다. 이 시스템은 화면을 촬영하고 이를 시각적으로 해석하는 반복 루프를 통해 복잡한 데스크톱 환경을 탐색한다.

Amazon Bedrock, 운영체제 제어 가능한 AI 에이전트 도입

•Amazon은 Bedrock AgentCore Browser에 운영체제 수준의 제어 기능을 탑재하여 기존 DOM 제약을 극복했다.
•이제 AI 에이전트가 운영체제의 대화 상자, 보안 경고, 메뉴 등과 직접 상호작용할 수 있다.
•이 시스템은 화면을 촬영하고 이를 시각적으로 해석하는 반복 루프를 통해 복잡한 데스크톱 환경을 탐색한다.

•Amazon은 Bedrock AgentCore Browser에 운영체제 수준의 제어 기능을 탑재하여 기존 DOM 제약을 극복했다.
•이제 AI 에이전트가 운영체제의 대화 상자, 보안 경고, 메뉴 등과 직접 상호작용할 수 있다.
•이 시스템은 화면을 촬영하고 이를 시각적으로 해석하는 반복 루프를 통해 복잡한 데스크톱 환경을 탐색한다.

AI 에이전트를 개발하는 환경에서 브라우저는 오랫동안 주요 작업 공간이었다. 지금까지 이러한 에이전트는 웹페이지의 구조적 청사진인 Document Object Model 내에서만 동작해 왔다. 브라우저가 버튼이나 폼과 같은 요소를 이해하는 핵심 기반이지만, 여기에는 엄격한 경계가 존재했다. 보안 경고창이나 파일 업로드 대화 상자 등 운영체제 수준의 요소가 나타나면 에이전트는 해당 요소를 인식하거나 클릭하지 못하는 이른바 '시각적 사각지대'에 빠지곤 했다.

Amazon이 발표한 Bedrock AgentCore Browser의 최신 업데이트는 이러한 기술적 한계를 돌파하고자 한다. 이번에 도입된 'OS Level Actions' 기능은 에이전트가 브라우저의 내부 로직을 넘어 운영체제와 직접 소통할 수 있게 한다. 결과적으로 자동화 프로세스 도중 macOS의 개인정보 보호 설정이나 Windows 보안 경고가 발생해도 에이전트가 중단되지 않는다. 이제 에이전트는 사용자처럼 화면 전체를 보고 필요한 상호작용을 즉각 수행할 수 있게 되었다.

이 혁신적인 메커니즘은 '행동-관찰-결정'이라는 연속적인 피드백 루프에 기반한다. 에이전트가 마우스 클릭이나 키보드 입력 같은 동작을 수행하면 시스템은 즉시 전체 화면을 스크린샷으로 캡처한다. 이 시각 정보는 다시 Vision Model로 전송되어 화면 상태를 분석하고, 다음 단계를 논리적으로 판단한다. 이는 컴퓨터를 단순히 코드의 집합이 아닌, AI가 인지하고 이동할 수 있는 하나의 시각적 인터페이스로 탈바꿈시킨 것이다.

이러한 발전은 실제 업무 환경이 지닌 복잡성을 수용한다는 점에서 의미가 크다. 기업의 업무 프로세스는 웹 환경처럼 정돈된 곳에서만 진행되지 않으며, 예기치 않은 팝업이나 시스템 수준의 구성 요소들로 가득 차 있다. Amazon은 이러한 간극을 메움으로써 사람이 일일이 오류 메시지에 '확인'을 누르지 않아도 끝까지 작업을 완수할 수 있는 강력한 에이전트를 구현했다. 이는 우리가 디지털 비서를 단순히 스크립트 기반의 봇이 아닌, 실질적인 자동화 도구로 활용하는 미래에 한 걸음 더 다가섰음을 의미한다.

AI 에이전트를 개발하는 환경에서 브라우저는 오랫동안 주요 작업 공간이었다. 지금까지 이러한 에이전트는 웹페이지의 구조적 청사진인 Document Object Model 내에서만 동작해 왔다. 브라우저가 버튼이나 폼과 같은 요소를 이해하는 핵심 기반이지만, 여기에는 엄격한 경계가 존재했다. 보안 경고창이나 파일 업로드 대화 상자 등 운영체제 수준의 요소가 나타나면 에이전트는 해당 요소를 인식하거나 클릭하지 못하는 이른바 '시각적 사각지대'에 빠지곤 했다.

Amazon이 발표한 Bedrock AgentCore Browser의 최신 업데이트는 이러한 기술적 한계를 돌파하고자 한다. 이번에 도입된 'OS Level Actions' 기능은 에이전트가 브라우저의 내부 로직을 넘어 운영체제와 직접 소통할 수 있게 한다. 결과적으로 자동화 프로세스 도중 macOS의 개인정보 보호 설정이나 Windows 보안 경고가 발생해도 에이전트가 중단되지 않는다. 이제 에이전트는 사용자처럼 화면 전체를 보고 필요한 상호작용을 즉각 수행할 수 있게 되었다.

이 혁신적인 메커니즘은 '행동-관찰-결정'이라는 연속적인 피드백 루프에 기반한다. 에이전트가 마우스 클릭이나 키보드 입력 같은 동작을 수행하면 시스템은 즉시 전체 화면을 스크린샷으로 캡처한다. 이 시각 정보는 다시 Vision Model로 전송되어 화면 상태를 분석하고, 다음 단계를 논리적으로 판단한다. 이는 컴퓨터를 단순히 코드의 집합이 아닌, AI가 인지하고 이동할 수 있는 하나의 시각적 인터페이스로 탈바꿈시킨 것이다.

이러한 발전은 실제 업무 환경이 지닌 복잡성을 수용한다는 점에서 의미가 크다. 기업의 업무 프로세스는 웹 환경처럼 정돈된 곳에서만 진행되지 않으며, 예기치 않은 팝업이나 시스템 수준의 구성 요소들로 가득 차 있다. Amazon은 이러한 간극을 메움으로써 사람이 일일이 오류 메시지에 '확인'을 누르지 않아도 끝까지 작업을 완수할 수 있는 강력한 에이전트를 구현했다. 이는 우리가 디지털 비서를 단순히 스크립트 기반의 봇이 아닌, 실질적인 자동화 도구로 활용하는 미래에 한 걸음 더 다가섰음을 의미한다.