この記事の要点は？

2026年5月15日に公開された「whichllm」は、ローカルLLMを実性能ベンチマークに基づき順位付けするツールである。モデルのパラメータ数ではなく、LiveBenchやChatbot Arenaなどのライブデータを基にリアルタイムでスコアを算出する。 GPUやハードウェアの自動検知機能に加え、Pythonコード生成やGGUF、AWQ、GPTQ形式のモデル即時実行をサポートする。

CLIツール「whichllm」がローカルLLMの性能順位付けを開始

github.com

2026年5月16日 (土)

•2026年5月15日に公開された「whichllm」は、ローカルLLMを実性能ベンチマークに基づき順位付けするツールである。
•モデルのパラメータ数ではなく、LiveBenchやChatbot Arenaなどのライブデータを基にリアルタイムでスコアを算出する。
•GPUやハードウェアの自動検知機能に加え、Pythonコード生成やGGUF、AWQ、GPTQ形式のモデル即時実行をサポートする。

•2026年5月15日に公開された「whichllm」は、ローカルLLMを実性能ベンチマークに基づき順位付けするツールである。
•モデルのパラメータ数ではなく、LiveBenchやChatbot Arenaなどのライブデータを基にリアルタイムでスコアを算出する。
•GPUやハードウェアの自動検知機能に加え、Pythonコード生成やGGUF、AWQ、GPTQ形式のモデル即時実行をサポートする。

2026年5月15日、開発者向けCLIツール「whichllm」が公開された。ユーザーは自身のハードウェア環境に合わせ、最も性能の高いローカルLLMを特定し実行できる。モデルサイズのみを重視する従来のツールとは異なり、LiveBench、Artificial Analysis、Aider、Chatbot ArenaのELOなどのライブベンチマークデータを統合した複合スコアで評価を行う。

このツールはGPU、CPU、RAMの構成を自動検知し、最適なモデルを提示する。最大の特徴は「鮮度重視」のスコアリングシステムで、古いデータに基づいて旧モデルが上位を占めるのを防ぐ。0から100で示されるスコアは、量子化ビット数、エビデンスの信頼性、実行環境との適合性で調整される。例えば、RTX 4090（VRAM 24GB）環境では、Qwen3.6-27B（Q5_K_M）が92.8点と判定され、秒間約27トークンの推論速度を実現する。

順位付け以外にも管理インターフェースとして機能する。コマンド「whichllm run」を実行すればuv経由で隔離環境でのチャットを開始でき、「whichllm snippet」でPython統合コードを生成可能だ。GGUF、AWQ、GPTQといった主要形式に対応し、シミュレーションモードでハードウェアアップグレード計画の検討もできる。本ツールはMITライセンスでオープンソース公開され、HuggingFaceのAPIと直接連携してリアルタイムなモデル更新を反映する。

原文(英語)を読む·2026年5月15日

#llm #cli #huggingface #gpu #vram #benchmark #quantization

CLIツール「whichllm」がローカルLLMの性能順位付けを開始

github.com

2026年5月16日 (土)

•2026年5月15日に公開された「whichllm」は、ローカルLLMを実性能ベンチマークに基づき順位付けするツールである。
•モデルのパラメータ数ではなく、LiveBenchやChatbot Arenaなどのライブデータを基にリアルタイムでスコアを算出する。
•GPUやハードウェアの自動検知機能に加え、Pythonコード生成やGGUF、AWQ、GPTQ形式のモデル即時実行をサポートする。

•2026年5月15日に公開された「whichllm」は、ローカルLLMを実性能ベンチマークに基づき順位付けするツールである。
•モデルのパラメータ数ではなく、LiveBenchやChatbot Arenaなどのライブデータを基にリアルタイムでスコアを算出する。
•GPUやハードウェアの自動検知機能に加え、Pythonコード生成やGGUF、AWQ、GPTQ形式のモデル即時実行をサポートする。

原文(英語)を読む·2026年5月15日

#llm #cli #huggingface #gpu #vram #benchmark #quantization