이 기사의 핵심 내용은?

로컬 LLM의 실시간 벤치마크 성능을 순위화하는 'whichllm' CLI 도구가 2026년 5월 15일 출시되었다. 단순 파라미터 수치가 아닌 LiveBench와 Chatbot Arena 등 최신 데이터를 기반으로 점수를 산출한다. 자동 하드웨어 감지 기능을 지원하며 GGUF, AWQ, GPTQ 형식 모델의 파이썬 코드 생성 및 즉시 실행이 가능하다.

로컬 LLM 성능 순위 제공 'whichllm' CLI 도구 출시

•로컬 LLM의 실시간 벤치마크 성능을 순위화하는 'whichllm' CLI 도구가 2026년 5월 15일 출시되었다.
•단순 파라미터 수치가 아닌 LiveBench와 Chatbot Arena 등 최신 데이터를 기반으로 점수를 산출한다.
•자동 하드웨어 감지 기능을 지원하며 GGUF, AWQ, GPTQ 형식 모델의 파이썬 코드 생성 및 즉시 실행이 가능하다.

개발자용 명령줄 도구인 'whichllm'이 2026년 5월 15일 공개되어, 사용자가 보유한 하드웨어 사양에 최적화된 고성능 로컬 LLM을 식별하고 실행할 수 있도록 지원한다. 기존 도구들이 모델 크기에 주목하는 것과 달리, 이 도구는 LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO 등 실시간 벤치마크 데이터를 통합한 복합 점수를 통해 순위를 매긴다.

또한 GPU, CPU, RAM 사양을 자동 감지하여 최적의 모델을 제안한다. 특히 '최신성 인식(recency-aware)' 점수 체계를 적용해 구형 모델이 과거 데이터로 상위권을 유지하는 것을 방지한다. 모델 점수는 0-100점 척도로 계산되며 양자화(quantization) 비트 수, 데이터 신뢰도, 런타임 호환성 등을 반영한다. 예를 들어 RTX 4090 24GB VRAM 환경에서 Qwen3.6-27B(Q5_K_M) 모델이 92.8점으로 1위를 기록하며, 초당 약 27토큰의 성능을 보인다.

이 도구는 단순 순위 제공을 넘어 관리 인터페이스 역할도 수행한다. 사용자는 'whichllm run' 명령어로 uv 환경에서 격리된 챗 세션을 즉시 실행하거나, 'whichllm snippet'을 통해 모델 통합용 파이썬 코드를 생성할 수 있다. GGUF, AWQ, GPTQ 등 다양한 형식을 지원하며 하드웨어 업그레이드 시뮬레이션 기능도 제공한다. MIT 라이선스로 배포되는 오픈소스 프로젝트로, HuggingFace API와 연동해 모델 정보를 실시간으로 업데이트한다.

개발자용 명령줄 도구인 'whichllm'이 2026년 5월 15일 공개되어, 사용자가 보유한 하드웨어 사양에 최적화된 고성능 로컬 LLM을 식별하고 실행할 수 있도록 지원한다. 기존 도구들이 모델 크기에 주목하는 것과 달리, 이 도구는 LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO 등 실시간 벤치마크 데이터를 통합한 복합 점수를 통해 순위를 매긴다.

또한 GPU, CPU, RAM 사양을 자동 감지하여 최적의 모델을 제안한다. 특히 '최신성 인식(recency-aware)' 점수 체계를 적용해 구형 모델이 과거 데이터로 상위권을 유지하는 것을 방지한다. 모델 점수는 0-100점 척도로 계산되며 양자화(quantization) 비트 수, 데이터 신뢰도, 런타임 호환성 등을 반영한다. 예를 들어 RTX 4090 24GB VRAM 환경에서 Qwen3.6-27B(Q5_K_M) 모델이 92.8점으로 1위를 기록하며, 초당 약 27토큰의 성능을 보인다.

이 도구는 단순 순위 제공을 넘어 관리 인터페이스 역할도 수행한다. 사용자는 'whichllm run' 명령어로 uv 환경에서 격리된 챗 세션을 즉시 실행하거나, 'whichllm snippet'을 통해 모델 통합용 파이썬 코드를 생성할 수 있다. GGUF, AWQ, GPTQ 등 다양한 형식을 지원하며 하드웨어 업그레이드 시뮬레이션 기능도 제공한다. MIT 라이선스로 배포되는 오픈소스 프로젝트로, HuggingFace API와 연동해 모델 정보를 실시간으로 업데이트한다.