요즘 AI 전부 "천재"라는데, 왜 체감은 다를까?

Name: 요즘 AI 전부 "천재"라는데, 왜 체감은 다를까?
Author: KnowAI Team

작성자: KnowAI Team·2026년 3월 28일 (토)

“미국 변호사 시험을 상위 10%로 통과했다.” “박사급 인재보다 똑똑하다” 등등 요즘 AI 모델 발표를 보면, 모두 다 천재입니다.
그런데 막상 써보면? 어떤 AI는 내 질문을 귀신같이 알아듣고, 어떤 AI는 그럴듯한 헛소리를 자신 있게 늘어놓죠.

발표되는 성능 평가 점수는 대부분 90점대로 엇비슷한데, 왜 체감은 이렇게 다를까요?
이번에는 AI 성능을 평가하는 방법, 즉 벤치마크가 무엇이고, 어떤 것을 측정하며, 어디까지 믿어야 하는지를 비전문가도 5분이면 감을 잡을 수 있도록 정리했습니다.

list목차expand_more

1. AI 성능, 어떻게 비교할까요
2. 어떤 종류의 벤치마크가 있나요?
3. 주요 벤치마크의 측정 내용 및 TOP 5
① MMLU / MMLU-Pro — “AI 수능”
② GPQA Diamond — “AI 대학원 시험”
③ HumanEval — “AI 코딩 시험”
④ LiveCodeBench — “매번 바뀌는 코딩 시험”
⑤ AIME 2025 — “AI 수학 올림피아드”
⑥ SWE-bench Verified — “AI 실무 개발자 시험”
⑦ Arena — “AI 인기투표”
⑧ Humanity's Last Exam (HLE) — “인류의 마지막 시험”
⑨ ARC-AGI-2 — “범용 지능 테스트”
4. 벤치마크의 한계 : 점수 ≠ 실사용 체감
① 시험은 시험일 뿐
② 시험 문제 유출 문제
③ 한 분야의 천재 ≠ 만능
④ 속도와 비용도 중요하다
⑤ “좋은 대화”는 점수로 측정하기 어렵다
5. 그래서, 어떻게 AI를 골라야 할까?

1. AI 성능, 어떻게 비교할까요

새 스마트폰을 고를 때 카메라 화소, 배터리 용량, 처리 속도 같은 스펙을 비교하듯, AI도 “얼마나 똑똑한가?”를 객관적으로 비교하려면 표준화된 평가 기준이 필요합니다.

이 역할을 하는 것이 바로 벤치마크(Benchmark) — AI에게 내는 표준화된 시험입니다.
AI 회사들은 새 모델을 출시할 때마다 벤치마크 점수를 공개하여 성능을 어필하는데, 보통 다음 세 가지로 구성됩니다:

시험 문제 — AI에게 주어지는 질문이나 과제
채점 방법 — 정답률, 코드 실행 결과 등 객관적 기준
순위표 — 다른 AI 모델들과의 점수 비교

TOEIC이 인간의 영어 실력을 측정하듯, AI 벤치마크는 AI의 특정 능력을 측정합니다.
그래서 벤치마크도 지식, 코딩, 수학, 대화 등 다양한 종류가 있으며, 하나의 벤치마크가 AI의 “모든 능력”을 평가하지는 않습니다.

2. 어떤 종류의 벤치마크가 있나요?

AI를 평가하는 벤치마크는 크게 6가지 영역으로 나눌 수 있습니다.

영역	무엇을 측정하나?	비유
🧠 일반 지식	다양한 분야의 기본 지식	수능 전 과목 시험
🔬 전문가 추론	박사급 과학·의학 문제 풀이	대학원 자격시험
💻 코딩	프로그래밍 문제 해결력	코딩 테스트
🔢 수학	수학 경시대회 수준 문제	수학 올림피아드
🛠️ 실전 소프트웨어	실제 코드 버그 수정·개발	실무 개발자 역량 테스트
💬 대화 품질	사람이 직접 평가한 대화 만족도	주관적인 면접 심사

3. 주요 벤치마크의 측정 내용 및 TOP 5

① MMLU / MMLU-Pro — “AI 수능”

Massive Multitask Language Understanding.

57개 과목(역사, 물리, 법학, 의학 등)에 걸친 객관식 시험입니다.

사람으로 비유하면, 수능에서 전 과목을 한꺼번에 치르는 것
MMLU-Pro는 MMLU의 업그레이드 버전으로, 보기 수를 늘리고 문제 난이도를 높여 찍기 방지를 강화했습니다
⚠️ 현재 상위 AI들은 대부분 90% 이상을 기록해, 실력 차이를 가려내기 어려워지고 있습니다

TOP 5 (2026년 3월 기준)
https://onyx.app/llm-leaderboard

순위	AI 모델	점수
🥇 1위	Moonshot / Kimi K2.5	92.0%
🥈 2위	Google / Gemini 3.1 Pro	91.8%
🥉 3위	Anthropic / Claude Opus 4.6	91.0%
4위	DeepSeek / DeepSeek R1	90.8%
5위	OpenAI / GPT-oss 120B	90.0%

② GPQA Diamond — “AI 대학원 시험”

Graduate-Level Google-Proof Q&A. 물리, 화학, 생물학 분야의 박사 수준 문제입니다.

사람으로 비유하면, 박사과정 종합시험
“Google-Proof”라는 이름처럼, 검색만으로는 답을 찾을 수 없는 문제들
해당 분야 전문가도 평균 65% 정도밖에 맞추지 못하는 고난도 시험

TOP 5 (2026년 3월 기준)
https://epoch.ai/benchmarks/gpqa-diamond

순위	AI 모델	점수
🥇 1위	OpenAI / GPT-5.4 Pro	94.6%
🥈 2위	Google / Gemini 3.1 Pro	94.1%
🥉 3위	Google / Gemini 3 Pro	92.6%
4위	OpenAI / GPT-5.2	91.4%
5위	Anthropic / Claude Opus 4.6	90.5%

③ HumanEval — “AI 코딩 시험”

Python 함수를 작성하는 프로그래밍 테스트입니다. 주어진 설명을 읽고, 올바르게 작동하는 코드를 작성해야 합니다.

사람으로 비유하면, 프로그래머 채용 코딩 테스트
164개의 문제로 구성되어 있으며, 작성한 코드가 실제로 실행되어 테스트를 통과해야 합니다
⚠️ 상위 모델들이 대부분 95% 이상을 기록해, 역시 실력 차이를 가려내기 어려워지는 추세. 그래서 다음에 소개할 LiveCodeBench가 등장했습니다

TOP 5 (2026년 3월 기준)
https://pricepertoken.com/leaderboards/benchmark/humaneval

순위	AI 모델	점수
🥇 1위	Anthropic / Claude Sonnet 4.5	97.6%
🥈 2위	DeepSeek / DeepSeek R1	97.4%
🥉 3위	xAI / Grok 4	97.0%
🥉 3위	Google / Gemini 3 Pro	97.0%
🥉 3위	Anthropic / Claude Sonnet 4.5	97.0%

④ LiveCodeBench — “매번 바뀌는 코딩 시험”

매달 새로운 문제가 추가되는 코딩 벤치마크입니다. AI가 기존 문제를 외워서 푸는 것을 방지합니다.

사람으로 비유하면, 매달 바뀌는 실전 코딩 대회 문제
HumanEval의 한계(문제 유출·암기)를 보완하기 위해 만들어졌습니다
2026년 현재 최고 모델도 약 80% 대이므로, 여전히 실력 차이를 충분히 가려냅니다

TOP 5 (2026년 3월 기준)
https://benchlm.ai/benchmarks/liveCodeBench

순위	AI 모델	점수
🥇 1위	Moonshot AI / Kimi K2.5	85%
🥈 2위	Zhipu AI / GLM-4.7	84.9%
🥉 3위	OpenAI / GPT 5.4	84%
4위	Xiamo / MiMo-V2-Flash	80.6%
5위	xAI / Grok Code Fast 1	80%

NOTE

같은 “코딩” 벤치마크인데 왜 결과가 다를까?
LiveCodeBench는 수학적 논리 문제를 풀게 하는 반면, SWE-bench는 실제 프로젝트의 버그를 수정하는 문제입니다. Claude는 SWE-bench에서 1위이지만, 알고리즘 문제에서는 중국계 모델에 밀립니다. “코딩을 잘한다”의 의미가 벤치마크마다 완전히 다르다는 좋은 예시죠.

⑤ AIME 2025 — “AI 수학 올림피아드”

American Invitational Mathematics Examination. 미국 수학 경시대회 문제를 AI에게 풀게 합니다.

사람으로 비유하면, 수학 영재만 참가하는 경시대회
단순 계산이 아닌, 여러 단계의 논리적 추론이 필요한 문제
최근 최상위 모델 몇 개가 100점 만점을 기록하기 시작해, 더 어려운 시험이 필요해지고 있습니다

TOP 5 (2026년 3월 기준)
https://vellum.ai/llm-leaderboard

순위	AI 모델	점수
🥇 1위	Google / Gemini 3 Pro	100%
🥇 1위	OpenAI / GPT 5.2	100%
🥉 3위	Anthropic / Claude Opus 4.6	99.8%
4위	Moonshot AI / Kimi K2.5	99.1%
5위	OpenAI / GPT-oss 20B	98.7%

⑥ SWE-bench Verified — “AI 실무 개발자 시험”

실제 오픈소스 프로젝트(GitHub)의 버그를 수정하는 과제입니다.

사람으로 비유하면, 실무 개발자가 실제 프로젝트 코드 전체에서 버그를 찾아 고치는 업무
HumanEval과의 차이점: HumanEval은 “작은 함수 하나”를 작성하는 것이고, SWE-bench는 거대한 실제 프로젝트 안에서 문제를 해결해야 합니다
코딩 능력뿐 아니라, 대규모 코드를 이해하고 맥락을 파악하는 능력까지 측정

TOP 5 (2026년 3월 기준)
https://www.swebench.com/

순위	AI 모델	점수
🥇 1위	Anthropic / Claude Opus 4.5	76.8%
🥈 2위	Google / Gemini 3 Flash	75.8%
🥈 2위	MiniMax / MiniMax M2.5	75.8%
4위	Anthropic / Claude Opus 4.6	75.6%
5위	OpenAI / GPT 5.2 Codex	72.8%

⑦ Arena — “AI 인기투표”

사람들이 두 AI의 답변을 비교해서 직접 투표하는 방식입니다.
어떤 AI인지 모르는 상태에서 진행됩니다.

사람으로 비유하면, 심사위원이 답변 내용을 주관적으로 평가하는 면접 심사
체스 레이팅과 같은 승률 기반 점수(Elo) 방식을 사용 (높을수록 좋음)
다른 벤치마크와 달리 실제 사용자의 체감 만족도를 반영한다는 큰 장점이 있습니다
단, 투표자의 주관이 섞이기 때문에 “똑똑함”보다 “말을 잘 하는 것”이 유리할 수 있죠

TOP 5 (2026년 3월 기준 / 텍스트 답변 품질)
https://arena.ai/leaderboard/text

순위	AI 모델	Elo 점수
🥇 1위	Anthropic / Claude Opus 4.6	1504
🥈 2위	Google / Gemini 3.1 Pro	1493
🥉 3위	xAI / Grok 4.2 Beta 1	1491
4위	Google / Gemini 3 Pro	1486
5위	OpenAI / GPT-5.4 High	1484

⑧ Humanity's Last Exam (HLE) — “인류의 마지막 시험”

전 세계 전문가 수천 명이 “AI가 절대 못 풀 것”이라고 생각하며 출제한 초고난도 문제 2,500개입니다.

사람으로 비유하면, 노벨상 수상자급 전문가들이 낸 초고난도 졸업시험
수학, 인문학, 과학 등 다양한 분야의 가장 어려운 수준의 문제
2026년 3월 기준, 최고 모델도 약 50% 수준 — 아직 AI가 정복하지 못한 영역
AI 발전 속도를 가늠하는 척도 역할

TOP 5 (2026년 3월 기준)
https://artificialanalysis.ai/evaluations/humanitys-last-exam

순위	AI 모델	점수
🥇 1위	Google / Gemini 3.1 Pro	44.7%
🥈 2위	OpenAI / GPT 5.4 xHigh	41.6%
🥉 3위	Anthropic / Claude Opus 4.6	36.7%
4위	Google / Gemini 3 Flash	34.7%
5위	Anthropic / Claude Sonnet 4.6	30.0%

⑨ ARC-AGI-2 — “범용 지능 테스트”

사전 지식 없이 패턴을 발견하고 새로운 문제에 적용하는 능력을 측정합니다.

사람으로 비유하면, IQ 테스트의 도형 추론 문제
일반 AI 챗봇(LLM)은 거의 0% — 현존하는 벤치마크 중 가장 까다로운 시험
최고 AI(Gemini 3 Deep Think)가 84.6%에 도달했지만, 문제당 $13로 비용이 매우 높음
“진짜 지능”에 가장 가까운 것을 측정하려는 시도

TOP 5 (2025~2026년 기준)
https://arcprize.org/leaderboard

순위	AI 모델 및 문제 해결 비용	점수
🥇 1위	Google / Gemini 3 Deep Think ($13.62)	84.6%
🥈 2위	OpenAI / GPT 5.4 Pro xHigh ($16.41)	83.3%
🥉 3위	Google / Gemini 3.1 Pro ($0.962)	77.1%
4위	OpenAI / GPT 5.4 xHigh ($1.52)	74.0%
5위	Anthropic / Claude Opus 4.6 High ($3.47)	69.2%

4. 벤치마크의 한계 : 점수 ≠ 실사용 체감

벤치마크 점수가 높다고, 당신이 사용할 때 더 좋은 AI라는 보장은 없습니다.
벤치마크는 유용한 참고 자료이지만, 몇 가지 한계가 있습니다.

① 시험은 시험일 뿐

수능 만점자가 반드시 회사에서 일을 잘하는 건 아니듯, 시험 점수 = 실제 업무 능력은 아닙니다.
AI도 마찬가지입니다. 벤치마크에서 높은 점수를 받은 모델이, 당신의 실제 질문에는 엉뚱한 답을 할 수 있습니다.

② 시험 문제 유출 문제

일부 AI 모델은 학습 데이터에 벤치마크 문제가 포함되어 있을 수 있습니다.
시험 답안을 미리 본 학생이 높은 점수를 받는 것과 같은 원리입니다. 이를 ‘시험지 유출(데이터 오염)’이라고 합니다.

③ 한 분야의 천재 ≠ 만능

수학 벤치마크 1위 모델이 글쓰기에서도 1위일 필요는 없습니다.

AI마다 잘하는 영역이 다릅니다. 목적에 따라 최적의 AI가 달라집니다.

④ 속도와 비용도 중요하다

아무리 똑똑한 AI라도, 답변이 30초 걸리거나 한 번 질문에 수백 원이 드는 AI를 매일 쓰기는 어렵습니다.

벤치마크는 보통 지능만 측정하고, 속도·비용·사용 편의성은 반영하지 않습니다.

⑤ “좋은 대화”는 점수로 측정하기 어렵다

“이 AI가 내 말을 잘 이해한다”, “답변이 자연스럽다”, “내 스타일에 맞다” 같은 주관적 만족도는 객관적 시험으로 측정하기 힘듭니다.

5. 그래서, 어떻게 AI를 골라야 할까?

벤치마크는 “후보를 추리는 1차 필터”로 활용하고, 최종 선택은 직접 써보고 내 용도에 맞는지 확인하세요.

내 용도를 먼저 정한다 — 코딩? 글쓰기? 공부? 업무 자동화?
해당 분야의 벤치마크를 참고해 후보를 2~3개 추린다
직접 같은 질문을 던져 비교한다 — 체감이 가장 정확한 평가