マルチモーダル表データ学習向けベンチマーク「MulTaBench」公開
HuggingFace
2026年5月15日 (金)
- •研究者らがテキストと画像を組み合わせたマルチモーダル表データ学習用の40データセットベンチマーク「MulTaBench」を公開した。
- •研究の結果、学習中に埋め込みを調整する手法が、固定された事前学習済み埋め込みよりも予測精度で優れていることが示された。
- •MulTaBenchは、複数のモダリティが補完的な予測シグナルを提供する医療やeコマースなどの高インパクト分野を対象としている。
テクニオン・イスラエル工科大学の研究者らは5月11日、マルチモーダル表データ学習向けの新たなベンチマークであるMulTaBenchを発表した。このベンチマークは、機械学習モデルが構造化された表データと非構造化のテキストや画像入力をどの程度統合できるかを評価する。MulTaBenchは、画像と表の予測タスクおよびテキストと表の予測タスクに均等に分割された40種類の異なるデータセットで構成されており、この種のものとしては最大規模となる。
今回の調査結果では、予測目標に合わせて埋め込みを調整する(ターゲット認識型)手法が、様々な表学習器やエンコーダーの規模、埋め込み次元全体で性能を大幅に向上させることが示された。このアプローチは、診療記録とX線画像が組み合わさる医療や、商品メタデータと説明画像が組み合わさるeコマースといった高インパクトな分野で特に有効である。既存のモデルは表データを非構造化テキスト用のシステムに無理に適用したり、一般的な埋め込みを使用して重要な予測情報を喪失したりすることが多かったが、MulTaBenchは全ての入力形式を同時に学習する共同モデリングに向けた新アーキテクチャ開発の基盤となる。