Claude Code, 로컬 추론 서버로 실행 가능
- •Claude Code 에이전트를 로컬 백엔드에서 실행하여 토큰당 비용과 사용량 제한을 제거할 수 있다.
- •개발자는 ANTHROPIC_BASE_URL 환경 변수를 설정해 API 호출을 Ollama, LM Studio, llama.cpp 서버로 우회한다.
- •에이전트 작업을 위해 glm-4.7-flash, devstral-small-2:24b, gemma4:26b 등 로컬 코딩 모델을 권장한다.
자동 소프트웨어 엔지니어링 도구인 Claude Code가 로컬 추론 백엔드에서 작동하도록 구성할 수 있게 되었다. 에이전트 세션은 일반적인 대화형 인터페이스보다 10~50배 많은 토큰을 소모하는 경우가 많아, 모델을 로컬에서 실행하면 상당한 비용 절감 효과를 거둘 수 있다. 호출 우회는 ANTHROPIC_BASE_URL 환경 변수를 Anthropic Messages API 형식을 지원하는 로컬 서버로 지정하면 된다.
2026년 6월 12일 기준으로 세 가지 주요 백엔드가 이 통합을 지원한다. Ollama는 해당 API를 네이티브로 지원하며, glm-4.7-flash(8GB VRAM, 128K 컨텍스트)와 devstral-small-2:24b(16GB VRAM)가 권장된다. LM Studio는 0.4.1 버전 이상부터 /v1/messages 엔드포인트를 사용해 관리 인터페이스를 제공한다. 더 세밀한 제어가 필요한 경우 llama.cpp를 통해 컨텍스트 크기를 128K로 설정하거나, --n-gpu-layers 99 옵션으로 하드웨어 가속을 사용하는 등 추론 파라미터를 직접 조정할 수 있다.
구현을 위해서는 설정 업데이트가 필수적이다. 더미 API 키를 설정하고 로컬 모델 이름을 매핑해야 하며, 헤더 오류를 방지하기 위해 settings.json 파일에 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS: "1"을 추가해야 한다. 코딩용으로 권장되는 모델은 gemma4:26b(20GB VRAM, 256K 컨텍스트, 코딩 벤치마크 정확도 77%)와 qwen3-coder(20GB VRAM, 128K 컨텍스트)다. 도구 호출 오류가 발생할 경우, API 사양 호환성을 위해 Ollama 0.14.3 이상의 버전을 사용하는지 확인해야 한다.