この記事の要点は？

MolmoAct2は、汎用ロボット制御向けのオープンウェイトな行動推論モデルである。 MolmoERバックボーンを採用し、330万件のデータで空間・身体的推論を学習済み。 13個の身体的推論ベンチマークでGemini Robotics ER-1.5やGPT-5を上回る性能を記録。

ロボット制御の新時代を拓くオープンソース「MolmoAct2」

•MolmoAct2は、汎用ロボット制御向けのオープンウェイトな行動推論モデルである。
•MolmoERバックボーンを採用し、330万件のデータで空間・身体的推論を学習済み。
•13個の身体的推論ベンチマークでGemini Robotics ER-1.5やGPT-5を上回る性能を記録。

ロボット工学の領域は今、静かながらも劇的な変革の途上にある。長年、複雑で予測不可能な環境で多様なタスクをこなす「汎用ロボット」の夢は、不透明な独自ソフトウェアや、高コストで専門的なハードウェア構成に縛られてきた。最新のAIが持つ理論的ポテンシャルと、現場で必要とされる実用性の間には長年大きな隔たりがあり、進歩を阻む壁となってきた。MolmoAct2はこの分断を埋め、高度な行動推論へのアクセスを民主化するために登場したオープンソース・システムである。

MolmoAct2の核心は、ロボット工学における「推論、レイテンシ、アクセシビリティ」という3つの障壁を打破することにある。従来モデルの多くは、ロボットの物理的な動きを既存の言語モデルに付随する「後付けの機能」として扱っていたため、失敗が多かった。これに対しMolmoAct2は、空間知能と身体知能に特化した「MolmoER」というバックボーンを採用している。研究チームは330万件という膨大なデータセットを用いて、モデルに単なる光景の認識だけでなく、物体や空間、そしてロボット自身の身体との物理的な相互関係を理解させている。

今回発表されたシステムで特に革新的なのは、ロボットの動きを鈍らせる「推論コスト」への対策である。複雑な推論モデルは計算が重くなりがちで、ミリ秒単位の判断が求められる動的なタスクには不向きだった。そこでチームは、適応型の推論エンジン「MolmoThink」を導入した。これはフレームごとにシーン全体を再計算するのではなく、環境内で変化があった箇所のみを重点的に処理する仕組みである。この選択的なアテンションによって、精度を落とすことなく、先代のモデルを悩ませてきた大きなレイテンシを抑えることに成功した。

さらに、プロジェクトはロボット工学における最大のボトルネックである「高品質な学習データの不足」にも挑んでいる。今回公開された「MolmoAct2-BimanualYAM」は、遠隔操作による両手作業の軌道データとしては現在最大規模のオープンソース・データセットだ。これに「OpenFAST」と呼ばれる行動トークナイザーを組み合わせることで、開発者がゼロから基盤モデルを構築することなく、賢く適応的なロボットを開発できるよう、包括的なツールキットを提供している。

この成果が示す意味は、単なるベンチマークの向上に留まらない。GoogleやOpenAIといった巨大企業のクローズドなモデルに匹敵、あるいは一部の領域で凌駕する性能を見せつつも、その真価は「オープンであること」に宿っている。モデルの重み、学習コード、そしてデータが公開されたことで、世界中のコミュニティがこのソフトウェアに改善を加えられるようになった。これにより、ロボット工学が研究室内のデモンストレーションから、日常生活に溶け込む汎用的で信頼性の高いツールへと進化する速度は、飛躍的に加速するだろう。

ロボット工学の領域は今、静かながらも劇的な変革の途上にある。長年、複雑で予測不可能な環境で多様なタスクをこなす「汎用ロボット」の夢は、不透明な独自ソフトウェアや、高コストで専門的なハードウェア構成に縛られてきた。最新のAIが持つ理論的ポテンシャルと、現場で必要とされる実用性の間には長年大きな隔たりがあり、進歩を阻む壁となってきた。MolmoAct2はこの分断を埋め、高度な行動推論へのアクセスを民主化するために登場したオープンソース・システムである。

MolmoAct2の核心は、ロボット工学における「推論、レイテンシ、アクセシビリティ」という3つの障壁を打破することにある。従来モデルの多くは、ロボットの物理的な動きを既存の言語モデルに付随する「後付けの機能」として扱っていたため、失敗が多かった。これに対しMolmoAct2は、空間知能と身体知能に特化した「MolmoER」というバックボーンを採用している。研究チームは330万件という膨大なデータセットを用いて、モデルに単なる光景の認識だけでなく、物体や空間、そしてロボット自身の身体との物理的な相互関係を理解させている。

今回発表されたシステムで特に革新的なのは、ロボットの動きを鈍らせる「推論コスト」への対策である。複雑な推論モデルは計算が重くなりがちで、ミリ秒単位の判断が求められる動的なタスクには不向きだった。そこでチームは、適応型の推論エンジン「MolmoThink」を導入した。これはフレームごとにシーン全体を再計算するのではなく、環境内で変化があった箇所のみを重点的に処理する仕組みである。この選択的なアテンションによって、精度を落とすことなく、先代のモデルを悩ませてきた大きなレイテンシを抑えることに成功した。

さらに、プロジェクトはロボット工学における最大のボトルネックである「高品質な学習データの不足」にも挑んでいる。今回公開された「MolmoAct2-BimanualYAM」は、遠隔操作による両手作業の軌道データとしては現在最大規模のオープンソース・データセットだ。これに「OpenFAST」と呼ばれる行動トークナイザーを組み合わせることで、開発者がゼロから基盤モデルを構築することなく、賢く適応的なロボットを開発できるよう、包括的なツールキットを提供している。

この成果が示す意味は、単なるベンチマークの向上に留まらない。GoogleやOpenAIといった巨大企業のクローズドなモデルに匹敵、あるいは一部の領域で凌駕する性能を見せつつも、その真価は「オープンであること」に宿っている。モデルの重み、学習コード、そしてデータが公開されたことで、世界中のコミュニティがこのソフトウェアに改善を加えられるようになった。これにより、ロボット工学が研究室内のデモンストレーションから、日常生活に溶け込む汎用的で信頼性の高いツールへと進化する速度は、飛躍的に加速するだろう。