코딩 에이전트, VPS 관리 성능 평가
- •Pascal Cescato는 Ubuntu 24.04 VPS 관리 자동화를 위해 8가지 코딩 도구 및 모델 조합을 벤치마킹했다.
- •Model C만이 유일하게 기능 테스트를 포함한 실무 적용 수준의 결과물을 내놓았으며, 비용은 1.73달러가 소요되었다.
- •계획 단계에서 토큰 사용량은 품질과 비례하지 않았으며, 모든 모델이 질문 없이 즉각적으로 아키텍처를 설계했다.
Pascal Cescato는 Ubuntu 24.04 기반의 VPS 관리 툴킷 구축을 목표로 8가지 코딩 도구 및 LLM 조합의 성능을 평가했다. 해당 프로젝트는 시스템 운영용 쉘 스크립트와 FastAPI 인터페이스를 통해 정적 사이트, PHP, 워드프레스, 리버스 프록시 등 4가지 유형의 설정을 자동화하는 과제로 구성되었다. 평가 대상은 Claude Code(Haiku 4.5), Copilot CLI(Haiku 4.5), 그리고 Haiku 4.5, GLM 5.2, BigPickle, Gemini 3.1 Pro, DeepSeek V4 Pro, GPT-OSS-120B 모델을 실행하는 OpenCode 조합이었다.
모든 모델은 설계 단계에서 사용자에게 사전 질문을 던지지 않고 즉각적으로 아키텍처를 제시했다. 이 중 한 모델만이 통합 CLI 진입점과 표준화된 종료 코드(성공 0, 입력 오류 1, 찾을 수 없음 2, 충돌 3, 의존성 누락 4, 내부 오류 5)를 제안하여 API 계약을 체결했다. 특히 계획 단계에서 토큰 사용량은 결과 품질과 연관성이 낮았는데, Gemini 3.1 Pro는 27k 토큰으로 수준 높은 계획을 도출한 반면, OpenCode 기반의 Haiku 4.5는 69k 토큰을 사용하고도 낮은 품질의 설계를 보였다.
코드 작성 단계에서 Model C는 세션 중 Pydantic 유효성 검사기의 버그를 스스로 식별하고 기능 테스트를 수행하며 차별화된 성능을 입증했다. 가장 빠른 모델은 9분 42초 만에 작업을 완료한 Model D였으나, 기능 테스트가 부재하고 생성된 비밀번호가 전달되지 않는 치명적인 버그가 발견되었다. Model C는 총 1.73달러(코드 비용 1.67달러 포함)로 가장 높은 비용이 발생했지만, 원자적 쓰기(Atomic write)와 포괄적인 오류 검사를 구현한 유일한 모델이었다. 독립적인 검토 결과, Model D는 사용자에게 자격 증명을 반환하지 못했고, Model A와 B는 훅(hook)의 안전하지 않은 평가로 인한 명령어 삽입 취약점이 드러났다. 결론적으로 Model C는 대화형 TTY 지원과 비대화형 API 플래그를 모두 제공하는 유일한 실무 적용 모델로 선정되었다.