TAU2

Name: TAU2
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

이 벤치마크는?

도구 사용 능력을 평가하는 에이전트 벤치마크. 실제 사용자 작업을 시뮬레이션한 멀티스텝 태스크에서 AI의 도구 활용 및 계획 능력을 측정합니다. 점수는 태스크 성공률(%)입니다.

순위	모델
#1	Z.ai GLM-5	98.2%
#2	Z.ai GLM-5.1	97.7%
#3	Alibaba Qwen3.6 Plus	97.7%
#4	DeepSeek DeepSeek V4 Pro	96.2%
#5	Moonshot AI Kimi K2.5	95.9%
#6	Google Gemini 3.1 Pro	95.6%
#7	MiniMax MiniMax M2.5	95.3%
#8	DeepSeek DeepSeek V4 Flash	95.0%
#9	Xiaomi MiMo-V2-Pro	95.0%
#10	Grok Grok 4.1 Fast (Reasoning)	93.3%
#11	Grok Grok 4.20 (Reasoning)	93.0%
#12	Anthropic Claude Opus 4.6	92.1%
#13	Meta Muse Spark	91.5%
#14	DeepSeek DeepSeek V3.2	90.6%
#15	Arcee AI Trinity Large Thinking	90.1%
#16	Anthropic Claude Opus 4.5	89.5%
#17	Anthropic Claude Opus 4.7	88.6%
#18	OpenAI GPT-5.4	87.1%
#19	MiniMax MiniMax M2.7	84.8%
#20	Baidu ERNIE 5.0 Thinking	83.9%
#21	Alibaba Qwen3.5 397B A17B	83.9%
#22	Google Gemini 3 Flash	80.4%
#23	Meituan Longcat Flash Chat	79.5%
#24	Anthropic Claude Sonnet 4.6	78.9%
#25	Anthropic Claude Sonnet 4.5	78.1%
#26	Anthropic Claude Opus 4	73.4%
#27	LG AI Research K-EXAONE	73.2%
#28	Anthropic Claude Opus 4.1	71.4%
#29	NVIDIA Nemotron 3 Super	67.8%
#30	Anthropic Claude Sonnet 4	64.6%
#31	Grok Grok 4.1 Fast	63.7%
#32	Amazon Nova 2 Lite	62.0%
#33	Google Gemma 4 31B	59.9%
#34	Grok Grok 4.20	59.9%
#35	Anthropic Claude Haiku 4.5	54.7%
#36	Google Gemini 2.5 Pro	54.1%
#37	OpenAI GPT-5.4 Nano	52.6%
#38	OpenAI GPT-4.1	47.1%
#39	OpenAI GPT OSS 120B	45.0%
#40	Mistral AI Mistral Small 4	41.2%
#41	OpenAI GPT-5.4 Mini	36.5%
#42	OpenAI GPT-5 Mini	31.9%
#43	Google Gemini 2.5 Flash	31.6%
#44	Google Gemini 3.1 Flash Lite	31.3%
#45	Google Gemini 2.5 Flash Lite	30.4%
#46	OpenAI GPT-5 Nano	30.4%
#47	Meta Llama 4 Maverick	17.8%
#48	Meta Llama 4 Scout	15.5%
#49	Baidu ERNIE 4.5 300B A47B	0.0%
#50	OpenAI GPT-5	0.0%