AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
私たちのビジョン利用規約プライバシーお問い合わせ

LLMバトルロイヤルが示すアライメント税の影響

LLMバトルロイヤルが示すアライメント税の影響

OpenRouter
2026年6月5日 (金)
  • •Grok 4.1 Fastが30戦中13勝を挙げ、1勝あたりのコストは0.97ドルだった
  • •Claude Sonnet 4.6は協力的な挙動により5勝したが、1勝あたりのコストは26.78ドルに達した
  • •11種類のLLMがエージェンティックAIの性能とアライメント税を評価する30戦のバトルロイヤルに参加した
  • •Grok 4.1 Fastが30戦中13勝を挙げ、1勝あたりのコストは0.97ドルだった
  • •Claude Sonnet 4.6は協力的な挙動により5勝したが、1勝あたりのコストは26.78ドルに達した
  • •11種類のLLMがエージェンティックAIの性能とアライメント税を評価する30戦のバトルロイヤルに参加した

ジャッキー・リアン(Jacky Liang, OpenRouterのDev Relリード)による分析によると、11種類のLLMが2Dバトルロイヤルシミュレーションの30試合に投入され、競技性能とエージェンティックな挙動がテストされた。各モデルは人間の介入なしに、推論、ツールの活用、メモリ管理を行いながらゲームをプレイした。シミュレーションはApex Legendsの競技形式に基づき、勝利数、キル数、1勝あたりのコストなどの指標を追跡した。

Grok 4.1 Fastは30戦中13勝し、最も優れた結果を残した。1勝あたりのコストは0.97ドルで、他のモデルと比較してコスト効率が高い。キル数は他より少ないものの、車による衝突攻撃と、命中率が90%を超えた時のみ発砲するという厳格な戦術を維持することで上位を確保した。対照的にClaude Sonnet 4.6は5勝し、1勝あたりのコストは26.78ドルであった。同モデルは停戦を提案したり、自身の位置を対戦相手に教えたりするなど、協力的な傾向を示した。

実験の結果、モデル間で明確な性能差が浮き彫りになった。GPT 5.4は38キルを獲得し、リーダーボードで2位となる戦闘効率を見せたが、1勝あたりのコストは61.44ドルで最も高額であった。一方、GPT 5.4-mini、DeepSeek 4 Flash、Kimi K2.6の3モデルは、合計57.15ドルの費用を投じながらも1勝もできなかった。この結果は、モデルがアライメント税を払っている可能性を示唆している。役立つことや安全性を優先する訓練(AnthropicのConstitution AIなど)が、ゼロサムの競技環境では性能の妨げになっていると考えられる。

この結果は、ベンチマークのスコアが必ずしもタスク固有の成功と相関しないことを示している。Grokが迷いなく効率的な戦略をとることで優れた結果を出した一方、他のモデルはRLHFを通じて訓練された協力的な本能によって制約を受けていた。コスト効率の指標は、業界のリーダーボードで高得点なモデルが、必ずしも特定の自律タスクにおいて最良の価値を提供しないことを示している。このバトルロイヤル環境においては、コストが安く、過度なアライメントがなされていないモデルの方が、1ドルあたりのポイント生成量で優位性を示した。

ジャッキー・リアン(Jacky Liang, OpenRouterのDev Relリード)による分析によると、11種類のLLMが2Dバトルロイヤルシミュレーションの30試合に投入され、競技性能とエージェンティックな挙動がテストされた。各モデルは人間の介入なしに、推論、ツールの活用、メモリ管理を行いながらゲームをプレイした。シミュレーションはApex Legendsの競技形式に基づき、勝利数、キル数、1勝あたりのコストなどの指標を追跡した。

Grok 4.1 Fastは30戦中13勝し、最も優れた結果を残した。1勝あたりのコストは0.97ドルで、他のモデルと比較してコスト効率が高い。キル数は他より少ないものの、車による衝突攻撃と、命中率が90%を超えた時のみ発砲するという厳格な戦術を維持することで上位を確保した。対照的にClaude Sonnet 4.6は5勝し、1勝あたりのコストは26.78ドルであった。同モデルは停戦を提案したり、自身の位置を対戦相手に教えたりするなど、協力的な傾向を示した。

実験の結果、モデル間で明確な性能差が浮き彫りになった。GPT 5.4は38キルを獲得し、リーダーボードで2位となる戦闘効率を見せたが、1勝あたりのコストは61.44ドルで最も高額であった。一方、GPT 5.4-mini、DeepSeek 4 Flash、Kimi K2.6の3モデルは、合計57.15ドルの費用を投じながらも1勝もできなかった。この結果は、モデルがアライメント税を払っている可能性を示唆している。役立つことや安全性を優先する訓練(AnthropicのConstitution AIなど)が、ゼロサムの競技環境では性能の妨げになっていると考えられる。

この結果は、ベンチマークのスコアが必ずしもタスク固有の成功と相関しないことを示している。Grokが迷いなく効率的な戦略をとることで優れた結果を出した一方、他のモデルはRLHFを通じて訓練された協力的な本能によって制約を受けていた。コスト効率の指標は、業界のリーダーボードで高得点なモデルが、必ずしも特定の自律タスクにおいて最良の価値を提供しないことを示している。このバトルロイヤル環境においては、コストが安く、過度なアライメントがなされていないモデルの方が、1ドルあたりのポイント生成量で優位性を示した。

原文(英語)を読む·2026年6月4日
#grok#claude#rlhf#alignment tax#battle royale#openrouter