건설 로봇 혁신: 시각 언어 모델로 데이터 라벨링 자동화
- •Bedrock Robotics가 시각 언어 모델을 활용해 수백만 시간 분량의 건설 현장 영상 라벨링 작업을 자동화했다.
- •전략적인 프롬프트 엔지니어링을 통해 복잡한 환경 내 장비 식별 정확도를 기존 34%에서 70%로 대폭 향상시켰다.
- •시간당 10달러의 저렴한 비용으로 굴착기 영상을 처리하는 파이프라인을 구축해 AI 시스템 배포 시간을 단축했다.
현재 건설 업계는 미국에서만 약 50만 개의 일자리가 부족할 정도로 심각한 인력난에 직면해 있다. 이러한 공백을 메우기 위해 Bedrock Robotics는 사람의 개입을 최소화하면서 중장비를 운용할 수 있는 자율주행 시스템을 개발 중이다. 하지만 이러한 '물리적 AI(Physical AI)' 시스템을 학습시키려면 수백만 시간의 영상 데이터에서 특정 도구와 작업을 일일이 식별하는 라벨링 작업이 필요하다. 기존에는 이 과정이 수작업으로 진행되어 자율주행 함대의 규모를 키우는 데 심각한 병목 현상으로 작용해 왔다.
이에 Bedrock Robotics는 AWS 생성형 AI 혁신 센터와 손을 잡고 시각 언어 모델(Vision-Language Models, VLMs)을 도입해 데이터 준비 과정을 자동화했다. 이 모델은 굴착기 조종석에서 촬영된 시각 데이터와 자연어 설명을 연결하는 가교 역할을 수행한다. 다만 일반적인 AI 모델은 건설 현장의 자욱한 먼지나 불안정한 카메라 각도, 생소한 특수 장비를 인식하는 데 어려움을 겪는 경우가 많다. 연구진은 이를 해결하기 위해 프롬프트 엔지니어링을 활용하여 AI에 현장 특유의 맥락을 학습시켰으며, 그 결과 평탄화 빔이나 트렌칭 버킷처럼 유사하게 생긴 장비도 정확히 구분해낼 수 있게 되었다.
이러한 변화는 산업 자동화 분야에 있어 매우 고무적인 성과다. Bedrock Robotics는 영상 처리 비용을 시간당 단돈 10달러로 유지하면서도 장비 식별 정확도를 34%에서 70%까지 끌어올렸다. 수동 라벨링에서 VLM 기반의 확장 가능한 자동화 파이프라인으로 전환함에 따라 AI 학습 주기가 빨라졌고 자율주행 장비의 복원력 또한 강화되었다. 지속되는 인력 부족 문제 속에서 이번 사례는 물류나 제조 등 다른 물리적 AI 분야에서도 지능형 기기 도입을 가속화할 수 있는 실질적인 청사진을 제시하고 있다.