ChatGPT와 Gemini, 도쿄대 입시에서 인간 수석을 압도하다
- •ChatGPT와 Gemini가 2026년 도쿄대 모의 입시에서 수석 합격생의 점수를 상회했다.
- •모델들은 1년 만에 낙제 수준에서 만점 수준으로 수학적 추론 능력을 비약적으로 향상시켰다.
- •전문가들의 채점 결과, AI는 논리적 추론에 강점을 보였으나 맥락 이해와 시각적 해석에서는 여전히 한계를 드러냈다.
최근 대형 언어 모델(LLM)이 도쿄대와 교토대 등 일본 최고 명문 대학의 입학시험에서 보여준 성과는 학계와 기술 업계에 큰 충격을 던졌다. 이번 결과는 단순히 AI가 객관식 문제에서 운 좋게 정답을 맞힌 차원이 아니다. 복잡한 다단계 논리적 추론을 엄격한 인간 채점 기준 아래에서 해결하는 근본적인 패러다임의 변화를 시사한다.
스타트업인 LifePrompt가 ChatGPT와 Gemini를 대상으로 진행한 2026년 2차 입시 모의 테스트 데이터는 명확한 성능 향상을 보여준다. 의학부 진학을 위한 관문으로 불리는 도쿄대 '이과 3류' 전형에서 두 모델 모두 실제 수석 합격자의 점수를 뛰어넘는 성적을 기록했다. 특히 550점 만점에 490점을 상회하는 점수는 AI가 단순한 패턴 매칭을 넘어선 고도의 사고 체계를 갖췄음을 입증한다.
이번 분석이 더욱 엄밀한 이유는 채점 방식에 있다. 단순 자동 채점이 아닌 가와이주쿠(Kawaijuku) 등 입시 전문 기관의 강사들이 실제 수험생을 평가하는 것과 동일한 서술형 채점 기준을 적용했다. 전문가들은 답의 결과뿐만 아니라 도출 과정, 논리적 흐름, 과학적 엄밀성을 종합적으로 평가했으며, AI가 이러한 고난도 검증 과정을 통과했다는 점은 매우 의미 있는 성과다.
다만 기술 애호가들은 'AI 예외주의'에 빠지지 않도록 주의해야 한다. 모델들은 수학 시험의 정형화된 구조는 완벽히 마스터했지만, 여전히 공감 능력이나 메타포 이해, 복잡한 시각 해석이 필요한 지리, 역사, 문학 분야에서는 상당한 격차를 드러냈다. 이는 AI가 지식은 갖추고 있으나 일본의 최상위 대학이 요구하는 문화적 맥락과 서술적 완성도를 체득하는 데는 여전히 난관이 존재함을 의미한다.
결국 이번 진화는 교육의 미래가 단순 계산이나 암기 능력의 대결이 아님을 방증한다. 이제 교육의 초점은 높은 수준의 맥락 파악과 생성물 검증 능력 등 인간 고유의 역량으로 옮겨가야 한다. AI를 단순히 정보 검색 도구로 보는 시대를 넘어, 추론의 협력 파트너로 삼아 이를 통해 비판적 사고를 강화하는 새로운 세대의 학습 전략이 요구되는 시점이다.