요즘 AI 전부 "천재"라는데, 왜 체감은 다를까?
“미국 변호사 시험을 상위 10%로 통과했다.” “박사급 인재보다 똑똑하다” 등등 요즘 AI 모델 발표를 보면, 모두 다 천재입니다.
그런데 막상 써보면? 어떤 AI는 내 질문을 귀신같이 알아듣고, 어떤 AI는 그럴듯한 헛소리를 자신 있게 늘어놓죠.
발표되는 성능 평가 점수는 대부분 90점대로 엇비슷한데, 왜 체감은 이렇게 다를까요?
이번에는 AI 성능을 평가하는 방법, 즉 벤치마크가 무엇이고, 어떤 것을 측정하며, 어디까지 믿어야 하는지를 비전문가도 5분이면 감을 잡을 수 있도록 정리했습니다.
list목차expand_more
- 1. AI 성능, 어떻게 비교할까요
- 2. 어떤 종류의 벤치마크가 있나요?
- 3. 주요 벤치마크의 측정 내용 및 TOP 5
- ① MMLU / MMLU-Pro — “AI 수능”
- ② GPQA Diamond — “AI 대학원 시험”
- ③ HumanEval — “AI 코딩 시험”
- ④ LiveCodeBench — “매번 바뀌는 코딩 시험”
- ⑤ AIME 2025 — “AI 수학 올림피아드”
- ⑥ SWE-bench Verified — “AI 실무 개발자 시험”
- ⑦ Arena — “AI 인기투표”
- ⑧ Humanity's Last Exam (HLE) — “인류의 마지막 시험”
- ⑨ ARC-AGI-2 — “범용 지능 테스트”
- 4. 벤치마크의 한계 : 점수 ≠ 실사용 체감
- ① 시험은 시험일 뿐
- ② 시험 문제 유출 문제
- ③ 한 분야의 천재 ≠ 만능
- ④ 속도와 비용도 중요하다
- ⑤ “좋은 대화”는 점수로 측정하기 어렵다
- 5. 그래서, 어떻게 AI를 골라야 할까?
1. AI 성능, 어떻게 비교할까요
새 스마트폰을 고를 때 카메라 화소, 배터리 용량, 처리 속도 같은 스펙을 비교하듯, AI도 “얼마나 똑똑한가?”를 객관적으로 비교하려면 표준화된 평가 기준이 필요합니다.
이 역할을 하는 것이 바로 벤치마크(Benchmark) — AI에게 내는 표준화된 시험입니다.
AI 회사들은 새 모델을 출시할 때마다 벤치마크 점수를 공개하여 성능을 어필하는데, 보통 다음 세 가지로 구성됩니다:
-
시험 문제 — AI에게 주어지는 질문이나 과제
-
채점 방법 — 정답률, 코드 실행 결과 등 객관적 기준
-
순위표 — 다른 AI 모델들과의 점수 비교
TOEIC이 인간의 영어 실력을 측정하듯, AI 벤치마크는 AI의 특정 능력을 측정합니다.
그래서 벤치마크도 지식, 코딩, 수학, 대화 등 다양한 종류가 있으며, 하나의 벤치마크가 AI의 “모든 능력”을 평가하지는 않습니다.
2. 어떤 종류의 벤치마크가 있나요?
AI를 평가하는 벤치마크는 크게 6가지 영역으로 나눌 수 있습니다.
| 영역 | 무엇을 측정하나? | 비유 |
|---|---|---|
| 🧠 일반 지식 | 다양한 분야의 기본 지식 | 수능 전 과목 시험 |
| 🔬 전문가 추론 | 박사급 과학·의학 문제 풀이 | 대학원 자격시험 |
| 💻 코딩 | 프로그래밍 문제 해결력 | 코딩 테스트 |
| 🔢 수학 | 수학 경시대회 수준 문제 | 수학 올림피아드 |
| 🛠️ 실전 소프트웨어 | 실제 코드 버그 수정·개발 | 실무 개발자 역량 테스트 |
| 💬 대화 품질 | 사람이 직접 평가한 대화 만족도 | 주관적인 면접 심사 |
3. 주요 벤치마크의 측정 내용 및 TOP 5
① MMLU / MMLU-Pro — “AI 수능”
Massive Multitask Language Understanding.
57개 과목(역사, 물리, 법학, 의학 등)에 걸친 객관식 시험입니다.
-
사람으로 비유하면, 수능에서 전 과목을 한꺼번에 치르는 것
-
MMLU-Pro는 MMLU의 업그레이드 버전으로, 보기 수를 늘리고 문제 난이도를 높여 찍기 방지를 강화했습니다
-
⚠️ 현재 상위 AI들은 대부분 90% 이상을 기록해, 실력 차이를 가려내기 어려워지고 있습니다
TOP 5 (2026년 3월 기준)
https://onyx.app/llm-leaderboard
| 순위 | AI 모델 | 점수 |
|---|---|---|
| 🥇 1위 | Moonshot / Kimi K2.5 | 92.0% |
| 🥈 2위 | Google / Gemini 3.1 Pro | 91.8% |
| 🥉 3위 | Anthropic / Claude Opus 4.6 | 91.0% |
| 4위 | DeepSeek / DeepSeek R1 | 90.8% |
| 5위 | OpenAI / GPT-oss 120B | 90.0% |
② GPQA Diamond — “AI 대학원 시험”
Graduate-Level Google-Proof Q&A. 물리, 화학, 생물학 분야의 박사 수준 문제입니다.
-
사람으로 비유하면, 박사과정 종합시험
-
“Google-Proof”라는 이름처럼, 검색만으로는 답을 찾을 수 없는 문제들
-
해당 분야 전문가도 평균 65% 정도밖에 맞추지 못하는 고난도 시험
TOP 5 (2026년 3월 기준)
https://epoch.ai/benchmarks/gpqa-diamond
| 순위 | AI 모델 | 점수 |
|---|---|---|
| 🥇 1위 | OpenAI / GPT-5.4 Pro | 94.6% |
| 🥈 2위 | Google / Gemini 3.1 Pro | 94.1% |
| 🥉 3위 | Google / Gemini 3 Pro | 92.6% |
| 4위 | OpenAI / GPT-5.2 | 91.4% |
| 5위 | Anthropic / Claude Opus 4.6 | 90.5% |
③ HumanEval — “AI 코딩 시험”
Python 함수를 작성하는 프로그래밍 테스트입니다. 주어진 설명을 읽고, 올바르게 작동하는 코드를 작성해야 합니다.
-
사람으로 비유하면, 프로그래머 채용 코딩 테스트
-
164개의 문제로 구성되어 있으며, 작성한 코드가 실제로 실행되어 테스트를 통과해야 합니다
-
⚠️ 상위 모델들이 대부분 95% 이상을 기록해, 역시 실력 차이를 가려내기 어려워지는 추세. 그래서 다음에 소개할 LiveCodeBench가 등장했습니다
TOP 5 (2026년 3월 기준)
https://pricepertoken.com/leaderboards/benchmark/humaneval
| 순위 | AI 모델 | 점수 |
|---|---|---|
| 🥇 1위 | Anthropic / Claude Sonnet 4.5 | 97.6% |
| 🥈 2위 | DeepSeek / DeepSeek R1 | 97.4% |
| 🥉 3위 | xAI / Grok 4 | 97.0% |
| 🥉 3위 | Google / Gemini 3 Pro | 97.0% |
| 🥉 3위 | Anthropic / Claude Sonnet 4.5 | 97.0% |
④ LiveCodeBench — “매번 바뀌는 코딩 시험”
매달 새로운 문제가 추가되는 코딩 벤치마크입니다. AI가 기존 문제를 외워서 푸는 것을 방지합니다.
-
사람으로 비유하면, 매달 바뀌는 실전 코딩 대회 문제
-
HumanEval의 한계(문제 유출·암기)를 보완하기 위해 만들어졌습니다
-
2026년 현재 최고 모델도 약 80% 대이므로, 여전히 실력 차이를 충분히 가려냅니다
TOP 5 (2026년 3월 기준)
https://benchlm.ai/benchmarks/liveCodeBench
| 순위 | AI 모델 | 점수 |
|---|---|---|
| 🥇 1위 | Moonshot AI / Kimi K2.5 | 85% |
| 🥈 2위 | Zhipu AI / GLM-4.7 | 84.9% |
| 🥉 3위 | OpenAI / GPT 5.4 | 84% |
| 4위 | Xiamo / MiMo-V2-Flash | 80.6% |
| 5위 | xAI / Grok Code Fast 1 | 80% |
NOTE
같은 “코딩” 벤치마크인데 왜 결과가 다를까?
LiveCodeBench는 수학적 논리 문제를 풀게 하는 반면, SWE-bench는 실제 프로젝트의 버그를 수정하는 문제입니다. Claude는 SWE-bench에서 1위이지만, 알고리즘 문제에서는 중국계 모델에 밀립니다. “코딩을 잘한다”의 의미가 벤치마크마다 완전히 다르다는 좋은 예시죠.
⑤ AIME 2025 — “AI 수학 올림피아드”
American Invitational Mathematics Examination. 미국 수학 경시대회 문제를 AI에게 풀게 합니다.
-
사람으로 비유하면, 수학 영재만 참가하는 경시대회
-
단순 계산이 아닌, 여러 단계의 논리적 추론이 필요한 문제
-
최근 최상위 모델 몇 개가 100점 만점을 기록하기 시작해, 더 어려운 시험이 필요해지고 있습니다
TOP 5 (2026년 3월 기준)
https://vellum.ai/llm-leaderboard
| 순위 | AI 모델 | 점수 |
|---|---|---|
| 🥇 1위 | Google / Gemini 3 Pro | 100% |
| 🥇 1위 | OpenAI / GPT 5.2 | 100% |
| 🥉 3위 | Anthropic / Claude Opus 4.6 | 99.8% |
| 4위 | Moonshot AI / Kimi K2.5 | 99.1% |
| 5위 | OpenAI / GPT-oss 20B | 98.7% |
⑥ SWE-bench Verified — “AI 실무 개발자 시험”
실제 오픈소스 프로젝트(GitHub)의 버그를 수정하는 과제입니다.
-
사람으로 비유하면, 실무 개발자가 실제 프로젝트 코드 전체에서 버그를 찾아 고치는 업무
-
HumanEval과의 차이점: HumanEval은 “작은 함수 하나”를 작성하는 것이고, SWE-bench는 거대한 실제 프로젝트 안에서 문제를 해결해야 합니다
-
코딩 능력뿐 아니라, 대규모 코드를 이해하고 맥락을 파악하는 능력까지 측정
TOP 5 (2026년 3월 기준)
https://www.swebench.com/
| 순위 | AI 모델 | 점수 |
|---|---|---|
| 🥇 1위 | Anthropic / Claude Opus 4.5 | 76.8% |
| 🥈 2위 | Google / Gemini 3 Flash | 75.8% |
| 🥈 2위 | MiniMax / MiniMax M2.5 | 75.8% |
| 4위 | Anthropic / Claude Opus 4.6 | 75.6% |
| 5위 | OpenAI / GPT 5.2 Codex | 72.8% |
⑦ Arena — “AI 인기투표”
사람들이 두 AI의 답변을 비교해서 직접 투표하는 방식입니다.
어떤 AI인지 모르는 상태에서 진행됩니다.
-
사람으로 비유하면, 심사위원이 답변 내용을 주관적으로 평가하는 면접 심사
-
체스 레이팅과 같은 승률 기반 점수(Elo) 방식을 사용 (높을수록 좋음)
-
다른 벤치마크와 달리 실제 사용자의 체감 만족도를 반영한다는 큰 장점이 있습니다
-
단, 투표자의 주관이 섞이기 때문에 “똑똑함”보다 “말을 잘 하는 것”이 유리할 수 있죠
TOP 5 (2026년 3월 기준 / 텍스트 답변 품질)
https://arena.ai/leaderboard/text
| 순위 | AI 모델 | Elo 점수 |
|---|---|---|
| 🥇 1위 | Anthropic / Claude Opus 4.6 | 1504 |
| 🥈 2위 | Google / Gemini 3.1 Pro | 1493 |
| 🥉 3위 | xAI / Grok 4.2 Beta 1 | 1491 |
| 4위 | Google / Gemini 3 Pro | 1486 |
| 5위 | OpenAI / GPT-5.4 High | 1484 |
⑧ Humanity's Last Exam (HLE) — “인류의 마지막 시험”
전 세계 전문가 수천 명이 “AI가 절대 못 풀 것”이라고 생각하며 출제한 초고난도 문제 2,500개입니다.
-
사람으로 비유하면, 노벨상 수상자급 전문가들이 낸 초고난도 졸업시험
-
수학, 인문학, 과학 등 다양한 분야의 가장 어려운 수준의 문제
-
2026년 3월 기준, 최고 모델도 약 50% 수준 — 아직 AI가 정복하지 못한 영역
-
AI 발전 속도를 가늠하는 척도 역할
TOP 5 (2026년 3월 기준)
https://artificialanalysis.ai/evaluations/humanitys-last-exam
| 순위 | AI 모델 | 점수 |
|---|---|---|
| 🥇 1위 | Google / Gemini 3.1 Pro | 44.7% |
| 🥈 2위 | OpenAI / GPT 5.4 xHigh | 41.6% |
| 🥉 3위 | Anthropic / Claude Opus 4.6 | 36.7% |
| 4위 | Google / Gemini 3 Flash | 34.7% |
| 5위 | Anthropic / Claude Sonnet 4.6 | 30.0% |
⑨ ARC-AGI-2 — “범용 지능 테스트”
사전 지식 없이 패턴을 발견하고 새로운 문제에 적용하는 능력을 측정합니다.
-
사람으로 비유하면, IQ 테스트의 도형 추론 문제
-
일반 AI 챗봇(LLM)은 거의 0% — 현존하는 벤치마크 중 가장 까다로운 시험
-
최고 AI(Gemini 3 Deep Think)가 84.6%에 도달했지만, 문제당 $13로 비용이 매우 높음
-
“진짜 지능”에 가장 가까운 것을 측정하려는 시도
TOP 5 (2025~2026년 기준)
https://arcprize.org/leaderboard
| 순위 | AI 모델 및 문제 해결 비용 | 점수 |
|---|---|---|
| 🥇 1위 | Google / Gemini 3 Deep Think ($13.62) | 84.6% |
| 🥈 2위 | OpenAI / GPT 5.4 Pro xHigh ($16.41) | 83.3% |
| 🥉 3위 | Google / Gemini 3.1 Pro ($0.962) | 77.1% |
| 4위 | OpenAI / GPT 5.4 xHigh ($1.52) | 74.0% |
| 5위 | Anthropic / Claude Opus 4.6 High ($3.47) | 69.2% |
4. 벤치마크의 한계 : 점수 ≠ 실사용 체감
벤치마크 점수가 높다고, 당신이 사용할 때 더 좋은 AI라는 보장은 없습니다.
벤치마크는 유용한 참고 자료이지만, 몇 가지 한계가 있습니다.
① 시험은 시험일 뿐
수능 만점자가 반드시 회사에서 일을 잘하는 건 아니듯, 시험 점수 = 실제 업무 능력은 아닙니다.
AI도 마찬가지입니다. 벤치마크에서 높은 점수를 받은 모델이, 당신의 실제 질문에는 엉뚱한 답을 할 수 있습니다.
② 시험 문제 유출 문제
일부 AI 모델은 학습 데이터에 벤치마크 문제가 포함되어 있을 수 있습니다.
시험 답안을 미리 본 학생이 높은 점수를 받는 것과 같은 원리입니다. 이를 ‘시험지 유출(데이터 오염)’이라고 합니다.
③ 한 분야의 천재 ≠ 만능
수학 벤치마크 1위 모델이 글쓰기에서도 1위일 필요는 없습니다.
AI마다 잘하는 영역이 다릅니다. 목적에 따라 최적의 AI가 달라집니다.
④ 속도와 비용도 중요하다
아무리 똑똑한 AI라도, 답변이 30초 걸리거나 한 번 질문에 수백 원이 드는 AI를 매일 쓰기는 어렵습니다.
벤치마크는 보통 지능만 측정하고, 속도·비용·사용 편의성은 반영하지 않습니다.
⑤ “좋은 대화”는 점수로 측정하기 어렵다
“이 AI가 내 말을 잘 이해한다”, “답변이 자연스럽다”, “내 스타일에 맞다” 같은 주관적 만족도는 객관적 시험으로 측정하기 힘듭니다.
5. 그래서, 어떻게 AI를 골라야 할까?
벤치마크는 “후보를 추리는 1차 필터”로 활용하고, 최종 선택은 직접 써보고 내 용도에 맞는지 확인하세요.
-
내 용도를 먼저 정한다 — 코딩? 글쓰기? 공부? 업무 자동화?
-
해당 분야의 벤치마크를 참고해 후보를 2~3개 추린다
-
직접 같은 질문을 던져 비교한다 — 체감이 가장 정확한 평가