LLMエージェント、バックエンド開発の制約に苦戦
arXiv
2026年5月25日 (月)
- •LLMエージェントは、複雑な複数ファイルにわたるバックエンドのコード生成で大幅な制約の衰退を示す。
- •構造的要件が増加するにつれ、合計100件の生成タスクにおいてアサーション通過率が30ポイント低下する。
- •ORM違反やクエリの誤りなど、データ層の欠陥がエージェントの主な失敗原因となっている。
フランチェスコ・デンテ(Francesco Dente)、ダリオ・サトリアーニ(Dario Satriani)、パオロ・パポッティ(Paolo Papotti)の研究チームは、2026年5月7日にLLMエージェントがバックエンドコード生成において直面する「制約の衰退」現象に関する研究を発表した。エージェントは単純なタスクでは良好に動作するものの、アーキテクチャパターンやデータベースマッピングといった厳格な構造的制約に従う必要がある場合、その有効性が低下する。著者らは、8種類の異なるウェブフレームワークを用いた80件の新規開発タスクと20件の機能実装タスクを対象に、エージェントのパフォーマンスを評価した。
調査の結果、基本仕様から完全に指定された構造的要件へ移行する際、エージェントのアサーション通過率は平均で30ポイント低下し、構成によってはゼロに近づくことが判明した。パフォーマンスは環境によって大きく異なり、DjangoやFastAPIのように規約重視のフレームワークでは、Flaskのような簡潔で明示的なフレームワークと比較してエージェントは苦戦する傾向がある。
詳細なエラー分析により、クエリ構成の誤りやORMのランタイム違反といったデータ層の欠陥が、失敗の主な原因であることが特定された。これらの結果は、現在の自律型コーディングエージェントにとって、機能要件と厳格な構造ルールの両立が依然として大きな壁であることを示唆している。