메타, 실시간 비디오 세분화 AI 'SAM 3.1' 공개
- •메타, 객체 멀티플렉싱 기술로 비디오 추적 속도를 2배 높인 SAM 3.1 출시
- •H100 GPU 기준 최대 16개 객체를 동시 처리하며 초당 32프레임(FPS) 달성
- •인스타그램 비디오 효과 및 페이스북 마켓플레이스 '방에서 보기' 기능에 통합
메타 AI 연구팀이 자사의 세분화 모델을 대폭 개선한 SAM 3.1을 발표했다. 고속 비디오 처리와 프롬프트 기반 개념 세분화에 중점을 둔 이번 업데이트는, 개별 객체를 하나씩 처리하던 기존 방식에서 벗어나 '전역 추론(global reasoning)' 접근 방식을 도입한 것이 특징이다. 이를 통해 시스템을 한 번 통과하는 것만으로도 단일 화면 내 최대 16개의 서로 다른 항목을 동시에 추적할 수 있게 되었다.
'객체 멀티플렉싱'이라 명명된 이 기술적 도약은 H100 GPU와 같은 고성능 하드웨어에서 초당 처리량을 16프레임에서 32프레임으로 두 배나 끌어올렸다. 이러한 효율성 덕분에 복잡하고 밀집된 장면을 실시간으로 처리할 수 있게 되었을 뿐만 아니라, 보다 일반적인 하드웨어에서도 고성능 애플리케이션을 구동할 수 있는 환경을 마련했다. 특히 SAM 3.1은 고정된 카테고리에 국한되지 않고 '줄무늬가 있는 빨간 우산'과 같은 자연어 문구로도 객체를 정의할 수 있어 활용도가 높다.
기능적 업데이트는 실제 소비자용 서비스에도 즉시 적용된다. 인스타그램의 '에딧(Edits)' 앱은 조만간 제작자가 단 한 번의 터치로 특정 인물이나 사물에 시각 효과를 적용할 수 있는 기능을 제공할 계획이다. 또한 페이스북 마켓플레이스에서는 이 모델의 3D 버전인 'SAM 3D'를 활용한 '방에서 보기(View in Room)' 기능을 통해 사용자가 가구가 실제 거주 공간에 어떻게 어울릴지 미리 시각화해 볼 수 있도록 지원한다.
메타는 이러한 정밀도에 필요한 방대한 데이터셋을 구축하고자 인간 검토자와 Llama 모델 기반의 AI 주석 작성자를 결합한 '데이터 엔진'을 개발했다. 이 하이브리드 시스템은 데이터 레이블링 속도를 기존보다 최대 5배까지 단축했으며, 결과적으로 연구팀이 400만 개 이상의 고유한 시각적 개념을 큐레이션하는 성과를 거두었다.