이 기사의 핵심 내용은?

Pascal Cescato는 Ubuntu 24.04 VPS 관리 자동화를 위해 8가지 코딩 도구 및 모델 조합을 벤치마킹했다. Model C만이 유일하게 기능 테스트를 포함한 실무 적용 수준의 결과물을 내놓았으며, 비용은 1.73달러가 소요되었다. 계획 단계에서 토큰 사용량은 품질과 비례하지 않았으며, 모든 모델이 질문 없이 즉각적으로 아키텍처를 설계했다.

코딩 에이전트, VPS 관리 성능 평가

•Pascal Cescato는 Ubuntu 24.04 VPS 관리 자동화를 위해 8가지 코딩 도구 및 모델 조합을 벤치마킹했다.
•Model C만이 유일하게 기능 테스트를 포함한 실무 적용 수준의 결과물을 내놓았으며, 비용은 1.73달러가 소요되었다.
•계획 단계에서 토큰 사용량은 품질과 비례하지 않았으며, 모든 모델이 질문 없이 즉각적으로 아키텍처를 설계했다.

Pascal Cescato는 Ubuntu 24.04 기반의 VPS 관리 툴킷 구축을 목표로 8가지 코딩 도구 및 LLM 조합의 성능을 평가했다. 해당 프로젝트는 시스템 운영용 쉘 스크립트와 FastAPI 인터페이스를 통해 정적 사이트, PHP, 워드프레스, 리버스 프록시 등 4가지 유형의 설정을 자동화하는 과제로 구성되었다. 평가 대상은 Claude Code(Haiku 4.5), Copilot CLI(Haiku 4.5), 그리고 Haiku 4.5, GLM 5.2, BigPickle, Gemini 3.1 Pro, DeepSeek V4 Pro, GPT-OSS-120B 모델을 실행하는 OpenCode 조합이었다.

모든 모델은 설계 단계에서 사용자에게 사전 질문을 던지지 않고 즉각적으로 아키텍처를 제시했다. 이 중 한 모델만이 통합 CLI 진입점과 표준화된 종료 코드(성공 0, 입력 오류 1, 찾을 수 없음 2, 충돌 3, 의존성 누락 4, 내부 오류 5)를 제안하여 API 계약을 체결했다. 특히 계획 단계에서 토큰 사용량은 결과 품질과 연관성이 낮았는데, Gemini 3.1 Pro는 27k 토큰으로 수준 높은 계획을 도출한 반면, OpenCode 기반의 Haiku 4.5는 69k 토큰을 사용하고도 낮은 품질의 설계를 보였다.

코드 작성 단계에서 Model C는 세션 중 Pydantic 유효성 검사기의 버그를 스스로 식별하고 기능 테스트를 수행하며 차별화된 성능을 입증했다. 가장 빠른 모델은 9분 42초 만에 작업을 완료한 Model D였으나, 기능 테스트가 부재하고 생성된 비밀번호가 전달되지 않는 치명적인 버그가 발견되었다. Model C는 총 1.73달러(코드 비용 1.67달러 포함)로 가장 높은 비용이 발생했지만, 원자적 쓰기(Atomic write)와 포괄적인 오류 검사를 구현한 유일한 모델이었다. 독립적인 검토 결과, Model D는 사용자에게 자격 증명을 반환하지 못했고, Model A와 B는 훅(hook)의 안전하지 않은 평가로 인한 명령어 삽입 취약점이 드러났다. 결론적으로 Model C는 대화형 TTY 지원과 비대화형 API 플래그를 모두 제공하는 유일한 실무 적용 모델로 선정되었다.

서버라고 불리는 컴퓨터 시스템을 관리하는 일은 복잡하고 손이 많이 갑니다. 파스칼 세스카토라는 전문가가 이 복잡한 업무를 대신 해줄 똑똑한 AI 비서들을 찾아 나섰습니다. 그는 총 8가지의 서로 다른 AI 조합을 준비해 우분투 24.04 서버를 자동으로 관리하도록 시켰습니다. 마치 초보 요리사에게 복잡한 레시피를 주고 맛있는 요리를 만들어보라고 한 것과 비슷합니다. AI들은 웹사이트를 운영하고 관리하는 프로그램을 짜는 등 까다로운 숙제들을 받았습니다.

AI들에게 일을 시켜보니 재미있는 특징들이 발견되었습니다. 일을 시작하기 전 계획을 세우는 단계에서, 어떤 AI는 말을 아주 많이 했지만 정작 일의 효율은 낮았고, 어떤 AI는 적은 분량으로도 훌륭한 계획을 짰습니다. 즉, AI가 쓴 글자 수나 사용한 비용이 곧 일의 품질을 보장하지는 않는다는 뜻입니다. 특히 모든 AI가 질문도 없이 무작정 일을 시작하려 했던 점은 조금 아쉬운 대목이었습니다. 똑똑한 비서라면 사용자에게 정확히 무엇을 원하는지 먼저 물어봐야 하는데 말이죠.

결국 가장 중요한 것은 일을 마친 뒤 스스로 결과를 검사하는 능력이었습니다. 다른 모델들은 속도만 빠르거나 보안에 취약한 실수를 범했지만, 비용이 1.73달러 정도 든 모델 C는 스스로 만든 프로그램이 제대로 작동하는지 테스트까지 거쳤습니다. 결과적으로 이 모델만이 실제 업무 현장에서 바로 쓸 수 있는 유일한 비서로 인정받았습니다. 이 실험은 단순히 AI가 글을 잘 쓰는 것을 넘어, 스스로 실수를 찾아내고 고칠 수 있는 능력이야말로 진정한 실력임을 보여주었습니다.

코딩 에이전트, VPS 관리 성능 평가

컴퓨터 서버 관리, 이제 똑똑한 AI 비서에게 맡겨도 될까?

코딩 에이전트, VPS 관리 성능 평가

컴퓨터 서버 관리, 이제 똑똑한 AI 비서에게 맡겨도 될까?