데이터 맞춤형 AI 'DataClaw0' 공개
HuggingFace
2026년 6월 24일 (수)
- •비정형 멀티모달 데이터 스트림을 구조화하는 에이전트 프레임워크 'DataClaw0'가 새롭게 공개됐다.
- •9B 파라미터 모델은 SFT 및 GRPO를 통해 사용자 의도에 맞춘 정교한 데이터 정제 능력을 갖췄다.
- •신규 벤치마크 DataClaw_0-val 테스트 결과, 제한된 학습 데이터 환경에서도 효율적인 모델 적응 성능을 입증했다.
연구진이 대규모 비정형 멀티모달 데이터 스트림을 고밀도 구조로 변환하는 '에이전트 데이터 테일러링' 패러다임인 DataClaw0를 발표했다. 2026년 6월 19일 콩 완(Cong Wan) 연구원 등이 발표한 이 방식은 기존의 경험적 주석 처리 방식을 넘어, 데이터 처리 자체를 학습 가능한 능력으로 전환하여 특정 사용자 의도에 맞춰 데이터를 능동적으로 구조화한다.
데이터 부족 문제를 해결하기 위해 연구진은 생성적 의미 합성을 결정론적 사실 앵커(Factual Anchors)에 기반하는 2단계 파이프라인을 구축했다. 이를 통해 5가지 물리적 및 디지털 도메인을 아우르는 대규모 데이터셋을 확보했다. 핵심인 DataClaw_0-9B 모델은 SFT와 GRPO를 결합해 복잡한 데이터 정제 의도에 맞춰 스스로를 정렬한다.
DataClaw0의 유효성은 데이터 정제 전용 벤치마크인 DataClaw_0-val을 통해 검증됐다. 비디오 생성, 실제 시각적 질의응답(VQA), GUI 내비게이션 등의 사후 학습 과제를 수행한 결과, 해당 모델은 정보 밀도가 높은 데이터를 생성하여 데이터가 제한적인 환경에서도 새로운 과제에 효율적으로 적응하는 성과를 보였다.