IFBench

Name: IFBench
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

이 벤치마크는?

복잡한 지시사항을 정확히 따르는 능력을 평가하는 벤치마크. 형식, 길이, 스타일 등 다양한 제약 조건이 포함된 지시를 얼마나 충실히 이행하는지 측정합니다. 점수는 준수율(%)입니다.

순위	모델
#1	Grok Grok 4.20 (Reasoning)	81.2%
#2	DeepSeek DeepSeek V4 Flash	79.2%
#3	Google Gemini 3 Flash	78.0%
#4	Google Gemini 3.1 Flash Lite	77.2%
#5	Google Gemini 3.1 Pro	77.1%
#6	DeepSeek DeepSeek V4 Pro	76.5%
#7	Z.ai GLM-5.1	76.3%
#8	Meta Muse Spark	75.9%
#9	MiniMax MiniMax M2.7	75.7%
#10	Google Gemma 4 31B	75.6%
#11	Alibaba Qwen3.6 Plus	75.2%
#12	OpenAI GPT-5.4	73.9%
#13	Z.ai GLM-5	72.3%
#14	MiniMax MiniMax M2.5	71.6%
#15	NVIDIA Nemotron 3 Super	71.5%
#16	Moonshot AI Kimi K2.5	70.2%
#17	Xiaomi MiMo-V2-Pro	68.8%
#18	LG AI Research K-EXAONE	67.3%
#19	OpenAI GPT-5 Nano	65.9%
#20	OpenAI GPT-5.4 Mini	64.8%
#21	OpenAI GPT-5.4 Nano	64.4%
#22	DeepSeek DeepSeek V3.2	60.7%
#23	Anthropic Claude Opus 4.7	58.6%
#24	OpenAI GPT OSS 120B	58.3%
#25	Anthropic Claude Opus 4.5	58.0%
#26	Anthropic Claude Sonnet 4.5	57.3%
#27	Arcee AI Trinity Large Thinking	56.3%
#28	Anthropic Claude Opus 4.1	55.4%
#29	Anthropic Claude Sonnet 4	54.7%
#30	Anthropic Claude Haiku 4.5	54.3%
#31	Anthropic Claude Opus 4	53.7%
#32	Anthropic Claude Opus 4.6	53.1%
#33	Grok Grok 4.1 Fast (Reasoning)	52.7%
#34	Alibaba Qwen3.5 397B A17B	51.6%
#35	Google Gemini 2.5 Flash	50.3%
#36	Grok Grok 4.20	49.3%
#37	Google Gemini 2.5 Pro	48.7%
#38	Mistral AI Mistral Small 4	48.2%
#39	OpenAI GPT-5 Mini	45.6%
#40	OpenAI GPT-5	45.0%
#41	Meituan Longcat Flash Chat	43.1%
#42	OpenAI GPT-4.1	43.0%
#43	Meta Llama 4 Maverick	43.0%
#44	Anthropic Claude Sonnet 4.6	42.4%
#45	Google Gemini 2.5 Flash Lite	41.8%
#46	Baidu ERNIE 5.0 Thinking	41.4%
#47	Amazon Nova 2 Lite	40.5%
#48	Meta Llama 4 Scout	39.5%
#49	Baidu ERNIE 4.5 300B A47B	39.1%
#50	Grok Grok 4.1 Fast	36.5%