トランスフォーマーとハイブリッドモデルの性能比較
- •Ai2の研究チームは、7BパラメータのOlmo 3トランスフォーマーとハイブリッドモデルを比較し、トークン単位の予測性能を分析した。
- •ハイブリッドモデルは名詞や形容詞など、内容語の予測においてトランスフォーマーを上回り、0.04の損失差で優位性を示した。
- •トランスフォーマーは、アテンション機構により過去の入力を正確にコピーする逐語的繰り返しタスクで依然として競合優位性を保持している。
アレン人工知能研究所(Ai2)は、トランスフォーマーベースのモデルとハイブリッド言語モデルを比較分析した技術レポートを公開した。研究チームは、7BパラメータのOlmo 3トランスフォーマーと、アテンション層の大部分をリカレント層に置き換えたOlmoハイブリッドを評価した。データセット、トークナイザー、学習手順を両モデルでほぼ同一に保つことで、トークン単位の予測精度に対するアーキテクチャの影響を特定している。性能測定には、名詞、動詞、形容詞、n-gramなどの様々なトークンカテゴリーにわたる予測誤差の差である「損失差(loss gap)」を用いた。
分析の結果、ハイブリッドモデルは形容詞や副詞といった意味を運ぶ内容語において、トランスフォーマーを一般的に上回ることが判明した。ハイブリッドモデルは内容語において0.04の損失差を示したが、機能語では0.02にとどまった。この性能向上は、リカレント層がシーケンシャルな情報を追跡する圧縮された状態記憶を保持できるためと考えられる。しかし、コードの閉じ括弧や単なる情報の繰り返しなど、過去の入力を逐語的に取得するタスクでは、トランスフォーマーが依然として明確な優位性を持つ。これは、アテンション機構が過去の特定のトークンを直接参照してコピーできるためであり、リカレント層の圧縮記憶ではこの再現が困難だからである。
研究チームはさらに、1Bパラメータのモデル(純粋なトランスフォーマー、ハイブリッドモデル、純粋なRNN)を用いて検証実験を行った。その結果、内容豊富で繰り返しのないトークン予測ではハイブリッドおよびリカレントモデルがトランスフォーマーを上回る一方、純粋なRNNはアテンション機構の欠如により逐語的繰り返しタスクで著しく性能が低下することが確認された。レポートは、モデルアーキテクチャの評価において、単一の総括的な損失指標に依存すべきではないと指摘している。特定の情報カテゴリーに基づいたフィルタリング済みの損失測定や精度評価を行うことが、事前学習におけるアテンションとリカレンスといった異なるコンポーネントの寄与を理解するために不可欠である。