로컬 LLM 성능 순위 제공 'whichllm' CLI 도구 출시
- •로컬 LLM의 실시간 벤치마크 성능을 순위화하는 'whichllm' CLI 도구가 2026년 5월 15일 출시되었다.
- •단순 파라미터 수치가 아닌 LiveBench와 Chatbot Arena 등 최신 데이터를 기반으로 점수를 산출한다.
- •자동 하드웨어 감지 기능을 지원하며 GGUF, AWQ, GPTQ 형식 모델의 파이썬 코드 생성 및 즉시 실행이 가능하다.
개발자용 명령줄 도구인 'whichllm'이 2026년 5월 15일 공개되어, 사용자가 보유한 하드웨어 사양에 최적화된 고성능 로컬 LLM을 식별하고 실행할 수 있도록 지원한다. 기존 도구들이 모델 크기에 주목하는 것과 달리, 이 도구는 LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO 등 실시간 벤치마크 데이터를 통합한 복합 점수를 통해 순위를 매긴다.
또한 GPU, CPU, RAM 사양을 자동 감지하여 최적의 모델을 제안한다. 특히 '최신성 인식(recency-aware)' 점수 체계를 적용해 구형 모델이 과거 데이터로 상위권을 유지하는 것을 방지한다. 모델 점수는 0-100점 척도로 계산되며 양자화(quantization) 비트 수, 데이터 신뢰도, 런타임 호환성 등을 반영한다. 예를 들어 RTX 4090 24GB VRAM 환경에서 Qwen3.6-27B(Q5_K_M) 모델이 92.8점으로 1위를 기록하며, 초당 약 27토큰의 성능을 보인다.
이 도구는 단순 순위 제공을 넘어 관리 인터페이스 역할도 수행한다. 사용자는 'whichllm run' 명령어로 uv 환경에서 격리된 챗 세션을 즉시 실행하거나, 'whichllm snippet'을 통해 모델 통합용 파이썬 코드를 생성할 수 있다. GGUF, AWQ, GPTQ 등 다양한 형식을 지원하며 하드웨어 업그레이드 시뮬레이션 기능도 제공한다. MIT 라이선스로 배포되는 오픈소스 프로젝트로, HuggingFace API와 연동해 모델 정보를 실시간으로 업데이트한다.