이 기사의 핵심 내용은?

Bedrock Robotics가 시각 언어 모델을 활용해 수백만 시간 분량의 건설 현장 영상 라벨링 작업을 자동화했다. 전략적인 프롬프트 엔지니어링을 통해 복잡한 환경 내 장비 식별 정확도를 기존 34%에서 70%로 대폭 향상시켰다. 시간당 10달러의 저렴한 비용으로 굴착기 영상을 처리하는 파이프라인을 구축해 AI 시스템 배포 시간을 단축했다.

건설 로봇 혁신: 시각 언어 모델로 데이터 라벨링 자동화

•Bedrock Robotics가 시각 언어 모델을 활용해 수백만 시간 분량의 건설 현장 영상 라벨링 작업을 자동화했다.
•전략적인 프롬프트 엔지니어링을 통해 복잡한 환경 내 장비 식별 정확도를 기존 34%에서 70%로 대폭 향상시켰다.
•시간당 10달러의 저렴한 비용으로 굴착기 영상을 처리하는 파이프라인을 구축해 AI 시스템 배포 시간을 단축했다.

•Bedrock Robotics가 시각 언어 모델을 활용해 수백만 시간 분량의 건설 현장 영상 라벨링 작업을 자동화했다.
•전략적인 프롬프트 엔지니어링을 통해 복잡한 환경 내 장비 식별 정확도를 기존 34%에서 70%로 대폭 향상시켰다.
•시간당 10달러의 저렴한 비용으로 굴착기 영상을 처리하는 파이프라인을 구축해 AI 시스템 배포 시간을 단축했다.

현재 건설 업계는 미국에서만 약 50만 개의 일자리가 부족할 정도로 심각한 인력난에 직면해 있다. 이러한 공백을 메우기 위해 Bedrock Robotics는 사람의 개입을 최소화하면서 중장비를 운용할 수 있는 자율주행 시스템을 개발 중이다. 하지만 이러한 '물리적 AI(Physical AI)' 시스템을 학습시키려면 수백만 시간의 영상 데이터에서 특정 도구와 작업을 일일이 식별하는 라벨링 작업이 필요하다. 기존에는 이 과정이 수작업으로 진행되어 자율주행 함대의 규모를 키우는 데 심각한 병목 현상으로 작용해 왔다.

이에 Bedrock Robotics는 AWS 생성형 AI 혁신 센터와 손을 잡고 시각 언어 모델(Vision-Language Models, VLMs)을 도입해 데이터 준비 과정을 자동화했다. 이 모델은 굴착기 조종석에서 촬영된 시각 데이터와 자연어 설명을 연결하는 가교 역할을 수행한다. 다만 일반적인 AI 모델은 건설 현장의 자욱한 먼지나 불안정한 카메라 각도, 생소한 특수 장비를 인식하는 데 어려움을 겪는 경우가 많다. 연구진은 이를 해결하기 위해 프롬프트 엔지니어링을 활용하여 AI에 현장 특유의 맥락을 학습시켰으며, 그 결과 평탄화 빔이나 트렌칭 버킷처럼 유사하게 생긴 장비도 정확히 구분해낼 수 있게 되었다.

이러한 변화는 산업 자동화 분야에 있어 매우 고무적인 성과다. Bedrock Robotics는 영상 처리 비용을 시간당 단돈 10달러로 유지하면서도 장비 식별 정확도를 34%에서 70%까지 끌어올렸다. 수동 라벨링에서 VLM 기반의 확장 가능한 자동화 파이프라인으로 전환함에 따라 AI 학습 주기가 빨라졌고 자율주행 장비의 복원력 또한 강화되었다. 지속되는 인력 부족 문제 속에서 이번 사례는 물류나 제조 등 다른 물리적 AI 분야에서도 지능형 기기 도입을 가속화할 수 있는 실질적인 청사진을 제시하고 있다.

현재 건설 업계는 미국에서만 약 50만 개의 일자리가 부족할 정도로 심각한 인력난에 직면해 있다. 이러한 공백을 메우기 위해 Bedrock Robotics는 사람의 개입을 최소화하면서 중장비를 운용할 수 있는 자율주행 시스템을 개발 중이다. 하지만 이러한 '물리적 AI(Physical AI)' 시스템을 학습시키려면 수백만 시간의 영상 데이터에서 특정 도구와 작업을 일일이 식별하는 라벨링 작업이 필요하다. 기존에는 이 과정이 수작업으로 진행되어 자율주행 함대의 규모를 키우는 데 심각한 병목 현상으로 작용해 왔다.

이에 Bedrock Robotics는 AWS 생성형 AI 혁신 센터와 손을 잡고 시각 언어 모델(Vision-Language Models, VLMs)을 도입해 데이터 준비 과정을 자동화했다. 이 모델은 굴착기 조종석에서 촬영된 시각 데이터와 자연어 설명을 연결하는 가교 역할을 수행한다. 다만 일반적인 AI 모델은 건설 현장의 자욱한 먼지나 불안정한 카메라 각도, 생소한 특수 장비를 인식하는 데 어려움을 겪는 경우가 많다. 연구진은 이를 해결하기 위해 프롬프트 엔지니어링을 활용하여 AI에 현장 특유의 맥락을 학습시켰으며, 그 결과 평탄화 빔이나 트렌칭 버킷처럼 유사하게 생긴 장비도 정확히 구분해낼 수 있게 되었다.

이러한 변화는 산업 자동화 분야에 있어 매우 고무적인 성과다. Bedrock Robotics는 영상 처리 비용을 시간당 단돈 10달러로 유지하면서도 장비 식별 정확도를 34%에서 70%까지 끌어올렸다. 수동 라벨링에서 VLM 기반의 확장 가능한 자동화 파이프라인으로 전환함에 따라 AI 학습 주기가 빨라졌고 자율주행 장비의 복원력 또한 강화되었다. 지속되는 인력 부족 문제 속에서 이번 사례는 물류나 제조 등 다른 물리적 AI 분야에서도 지능형 기기 도입을 가속화할 수 있는 실질적인 청사진을 제시하고 있다.