Claude Codeのローカル推論バックエンド対応
- •Claude Codeエージェントをローカルバックエンドで稼働させ、トークン課金とレート制限を回避する。
- •ANTHROPIC_BASE_URLを設定し、API呼び出し先をOllamaやLM Studio、llama.cppへ転送する。
- •エージェントタスク向けにglm-4.7-flash、devstral-small-2:24b、gemma4:26b等のモデルを推奨する。
ソフトウェアエンジニアリング作業を自動化するClaude Codeが、ローカル推論バックエンド上で動作可能となった。エージェントセッションは通常のチャットに比べ10〜50倍のトークンを消費するため、ローカル環境での実行は大幅なコスト削減をもたらす。利用者は環境変数ANTHROPIC_BASE_URLをAnthropicのMessages API形式をサポートするローカルサーバーへ指定することで、リクエストを転送できる。
2026年6月12日時点で、3つの主要なバックエンドがこの統合に対応している。OllamaはネイティブでAPIをサポートしており、glm-4.7-flash(8GB VRAM、128Kコンテキスト)やdevstral-small-2:24b(16GB VRAM)が推奨される。LM Studio(バージョン0.4.1以降)はGUIでの管理を可能にし、/v1/messagesエンドポイントを提供する。llama.cppでは詳細なパラメータ調整が可能で、コンテキストサイズを128Kに設定し、--n-gpu-layers 99を用いてハードウェアアクセラレーションを適用できる。
実装には特定の構成更新が必須である。ダミーのAPIキーを設定し、モデル階層をローカル名にマッピングした上で、設定ファイルにCLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS: "1"を記述しヘッダーエラーを回避する。推奨モデルにはgemma4:26b(20GB VRAM、256Kコンテキスト、コーディングベンチマーク正解率77%)やqwen3-coder(20GB VRAM、128Kコンテキスト)がある。ツール呼び出しで不具合が生じる場合は、API仕様への適合を維持するためOllamaのバージョン0.14.3以降が必要となる。