LiveBench Instruction Following

Name: LiveBench Instruction Following
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

About This Benchmark

LiveBench Instruction Following category score (0–100). Evaluates the ability to precisely follow complex multi-constraint instructions.

Rank	Model
#1	Google Gemini 3.1 Pro	79.1
#2	OpenAI GPT-5.5	73.0
#3	OpenAI GPT-5.4	70.2
#4	Google Gemini 3.1 Flash Lite	68.6
#5	Z.ai GLM-5.1	68.5
#6	Google Gemma 4 31B	67.6
#7	Moonshot AI Kimi K2.6	64.4
#8	OpenAI GPT-5 Mini	64.2
#9	OpenAI GPT-5	64.0
#10	Grok Grok 4.20 (Reasoning)	63.4
#11	Anthropic Claude Opus 4.6	63.3
#12	MiniMax MiniMax M2.7	61.1
#13	Alibaba Qwen3.6 Plus	58.3
#14	Moonshot AI Kimi K2.5	57.4
#15	MiniMax MiniMax M2.5	57.2
#16	Z.ai GLM-5	55.3
#17	OpenAI GPT-5 Nano	52.0
#18	Anthropic Claude Sonnet 4.6	51.6
#19	OpenAI GPT OSS 120B	50.3
#20	Anthropic Claude Opus 4.7	46.1
#21	Anthropic Claude Sonnet 4	44.3
#22	Xiaomi MiMo-V2-Pro	43.2
#23	Anthropic Claude Opus 4.1	42.4
#24	Google Gemini 2.5 Pro	33.1
#25	Anthropic Claude Opus 4.5	28.9
#26	Google Gemini 2.5 Flash	28.5
#27	NVIDIA Nemotron 3 Super	28.4
#28	Google Gemini 3 Flash	28.3
#29	Grok Grok 4.1 Fast (Reasoning)	28.2
#30	Grok Grok 4.20	24.4
#31	Anthropic Claude Sonnet 4.5	23.5
#32	Google Gemini 2.5 Flash Lite	23.1
#33	DeepSeek DeepSeek V3.2	23.1
#34	OpenAI GPT-5.4 Mini	18.9
#35	Anthropic Claude Haiku 4.5	17.8
#36	Grok Grok 4.1 Fast	17.0
#37	OpenAI GPT-5.4 Nano	16.5
#38	Arcee AI Trinity Large Thinking	12.2