Multi-LCBがLLMのプログラミング評価を12言語へ拡大
HuggingFace
2026年6月22日 (月)
- •Multi-LCBはLiveCodeBenchを拡張し、12種類のプログラミング言語にわたるコード生成評価を実現した。
- •24種類のLLMを対象とした評価では、言語間での性能差が顕著であり、特にPythonへの過学習という課題が明らかになった。
- •入出力標準形式を採用することで、多様なプログラミング環境全体で一貫した評価プロトコルを維持している。
研究チームは、12種類のプログラミング言語にわたるLLMのコード生成能力を評価する新たなベンチマーク「Multi-LCB」を導入した。従来のLiveCodeBench (LCB) はPythonのみに限定されていたが、本フレームワークは既存のPythonタスクを他言語の同等問題へ変換することで、データ汚染を防ぎつつ一貫した評価を可能にしている。本システムは従来のLCB形式と互換性があり、今後のベンチマーク更新も自動的に追跡できる。
評価手法は、モデルが標準入力(stdin)から読み取り標準出力(stdout)へ書き出す入出力形式に基づいている。研究者は12言語それぞれの評価スクリプトを個別に開発し、異なるプログラミング環境下でも公平な性能測定を実現した。これにより、単一ターンのコーディングタスクからエージェンティックAI(自律型AI)のような複雑なシナリオまで、幅広い検証が可能となった。
24種類のLLMでテストを実施した結果、言語間での性能格差が浮き彫りとなった。調査では、モデルが他の言語に比べてPythonタスクで不自然に高い性能を示す「Pythonへの過学習」や、言語固有のデータ汚染の痕跡が確認された。これらの結果は、多くの現行モデルがPython以外の言語において推論や指示追従能力を維持できていないことを示唆している。本ベンチマークは、開発者が多言語コーディング能力を厳格に測定し、モデルの学習戦略における弱点を特定するためのツールとして活用される。