データ構造化の新手法「DataClaw0」が登場
HuggingFace
2026年6月24日 (水)
- •研究チームは非構造化マルチモーダルデータを整理するエージェント型フレームワーク「DataClaw0」を発表した。
- •9BパラメータのモデルはSFTとGRPOを用い、ユーザーの意図に合わせた高度な調整を実現する。
- •新指標「DataClaw_0-val」による評価で、学習データが限られた環境下でのモデル適応力の向上が確認された。
研究チームは、膨大かつ非構造化なマルチモーダルデータを高密度な構造化データへと変換する「エージェント型データテーラリング(Agentic Data Tailoring)」パラダイム「DataClaw0」を公開した。2026年6月19日にコン・ワン(Cong Wan)らが発表したこの手法は、従来のような経験則に基づく注釈作業を超え、データ処理自体を学習可能な能力として扱い、特定のユーザーや後続タスクの目的に応じて能動的にデータを構造化する。
データ不足という課題に対処するため、チームは生成的な意味合成を決定論的な事実の拠点(Factual Anchors)に基づいて固定する2段階のパイプラインを構築した。このプロセスにより、物理領域とデジタル領域にわたる大規模なデータセットが作成されている。システムの中心となる「DataClaw_0-9B」モデルは、教師あり微調整(SFT)とグループ相対ポリシー最適化(GRPO)を組み合わせることで、複雑なデータ洗練の意図と整合性を保つ。
DataClaw0の有効性は、データ洗練評価用に新たに構築されたベンチマーク「DataClaw_0-val」を用いて測定された。ビデオ生成、視覚入力に基づく質疑応答(VQA)、GUI操作などの下流タスクを通じた検証により、同モデルが情報の密度が高いデータを生成し、学習データが限られた状況下でも効率的なモデル適応を促進することが実証された。