AIエージェントの性能低下とトークン消費の分析
- •AIコーディングエージェントは、長時間のセッションでコンテキストウィンドウが飽和し、推論品質が低下する傾向がある。
- •開発者は性能劣化の原因をMCPツールの負荷と誤認しがちだが、実際には蓄積された会話履歴が主因であることが多い。
- •著者はツールを無効化する前にトークン使用量を直接測定し、具体的なボトルネックを特定することを推奨している。
AIコーディングエージェントは、長時間稼働すると制約を忘れたり、回答が反復的かつ曖昧になったりする性能低下を示すことが多い。この現象は「モデルが賢くなくなった」ように見えるが、システムエラーやクラッシュを伴うわけではない。多くの開発者は、この性能ドリフトをモデル・コンテキスト・プロトコル(MCP)などの外部ツールによるコンテキストウィンドウの過負荷が原因だと考える。しかし、実際のトークン配分を測定すると、ツール側のオーバーヘッドよりも会話履歴の方がコンテキストの枯渇に大きく寄与していることが判明する。
コンテキストウィンドウの使用状況を分析すると、会話履歴が占める割合が最も大きく、長いセッションではウィンドウ全体の約5分の1に達することもある。システムプロンプトやメモリファイルといった起動時の固定負荷は安定している一方、MCPツールの定義が占める割合は予想以上に小さい。ツールの影響はクライアントの実装に依存し、必要な時までツール定義の読み込みを遅延させるクライアントであれば、アイドル状態のトークン消費を最小限に抑えられる。対照的に、すべてのスキーマを最初に読み込むクライアントは、初期段階でかなりのトークンを消費する可能性がある。
性能低下を解消するには、盲目的にツールを無効化するのではなく、セッションの長さを管理することが重要だ。タスクごとに新しいセッションを開始し、継続性が必要な場合はAIに進行状況を要約させるのがベストプラクティスである。これはコンテキストウィンドウを、際限なく広がる保管庫ではなく、不要な書類を片付けるべき机の上と見なす考え方だ。トークン消費の源泉は環境によって異なるため、開発者は調整を行う前にトークン配分の内訳を検証すべきである。推論低下の真の原因を正確に測定することで、セッションの要約といった的を絞った対策が可能となり、長期間にわたってモデルの性能を維持できる。