이 기사의 핵심 내용은?

브라질 정형외과·외상학 시험에서 LLM 성능 벤치마크 수행 ChatGPT, 86.91% 정확도로 Gemini(79.43%) 제치고 1위 기록 전문 분야별 성적 편차 존재, 특히 소아 외상 분야에서 고전 확인

LLM, 의사 면허 시험 통과할 수 있을까? 정형외과 시험 평가

•브라질 정형외과·외상학 시험에서 LLM 성능 벤치마크 수행
•ChatGPT, 86.91% 정확도로 Gemini(79.43%) 제치고 1위 기록
•전문 분야별 성적 편차 존재, 특히 소아 외상 분야에서 고전 확인

의료계의 고난도 전문 시험과 인공지능의 만남이 전문가 교육 분야에서 AI의 실효성을 평가하는 연구자들의 핵심 관심사로 떠올랐다. 최근 'Journal of the Foot & Ankle'에 발표된 연구는 주요 생성형 AI 모델들을 대상으로 브라질 정형외과·외상학회(SBOT)의 TEOT 및 TARO 시험 문제를 풀게 하여 그 능력을 엄격히 검증했다. 해당 시험은 근골격계 치료 분야 의료진을 선발하는 까다로운 관문으로, AI가 임상 현장에서 믿을 수 있는 학습 보조나 진단 보조 도구로 기능할 수 있는지 확인하는 것이 이번 연구의 목적이었다.

연구팀은 해부학, 성인 외상, 선천성 소아 질환 등 정형외과의 세부 영역 전반에 걸쳐 모델을 체계적으로 평가했다. 네 가지 주요 모델에 표준화된 질문을 입력한 뒤, 학회가 제시한 공식 정답지와의 일치율을 비교했다. 그 결과 최고 성능을 보인 ChatGPT(GPT-5 Thinking 아키텍처 사용)가 86.91%의 성공률을 기록하며 가장 우수한 성적을 거뒀고, 구글의 Gemini 역시 79.43%라는 준수한 성적을 기록하며 전문 의료 지식을 학습하고 합성하는 AI 시스템의 성장세를 입증했다.

하지만 이번 연구 결과는 복잡한 임상 시나리오에 필요한 추론의 깊이 측면에서 여전한 한계를 보여주었다. AI 모델들이 일반적인 해부학 지식이나 성인 외상 사례에서는 뛰어난 성능을 보였으나, 소아 외상이나 희귀 선천성 질환과 같은 세부적인 문제에서는 정확도가 눈에 띄게 낮아졌다. 이는 LLM이 방대한 정보 검색이나 기초 학습을 위한 강력한 도구일 수는 있어도, 노련한 전문의를 완전히 대체하기에는 부족함을 시사한다.

연구진은 이러한 기술을 기존 학습 방식을 보완하는 '부속 도구'로 인식해야 한다고 강조한다. 즉, AI는 자율적인 의사결정권자가 아니라 인간 전문가의 엄격한 감독과 비판적 검토가 반드시 동반되어야 하는 보조 수단이라는 의미다. 이는 최근 학계가 AI의 '추론' 능력을 측정하기 위해 전문 자격 시험을 활용하는 흐름과도 궤를 같이한다.

학생들에게 이는 AI가 언제든 수준 높은 의학 개념을 학습시켜 줄 훌륭한 과외 선생님이 될 수 있음을 보여준다. 다만 이는 '확률적' 기계 지능의 한계에 대한 경고이기도 하다. AI는 생물학적 이해를 바탕으로 결과를 '사유'하는 것이 아니라 다음에 올 단어를 예측할 뿐이기에, 미세한 오류조차 치명적일 수 있는 의료 현장에서는 인간의 최종 검토가 필수적이다. 향후 AI의 의료 교육 도입은 피할 수 없는 흐름이나, 그 성공 여부는 기계의 빠른 처리 능력과 수술실이 요구하는 절대적인 신뢰성 사이의 간극을 어떻게 좁히느냐에 달려 있다.

의료계의 고난도 전문 시험과 인공지능의 만남이 전문가 교육 분야에서 AI의 실효성을 평가하는 연구자들의 핵심 관심사로 떠올랐다. 최근 'Journal of the Foot & Ankle'에 발표된 연구는 주요 생성형 AI 모델들을 대상으로 브라질 정형외과·외상학회(SBOT)의 TEOT 및 TARO 시험 문제를 풀게 하여 그 능력을 엄격히 검증했다. 해당 시험은 근골격계 치료 분야 의료진을 선발하는 까다로운 관문으로, AI가 임상 현장에서 믿을 수 있는 학습 보조나 진단 보조 도구로 기능할 수 있는지 확인하는 것이 이번 연구의 목적이었다.

연구팀은 해부학, 성인 외상, 선천성 소아 질환 등 정형외과의 세부 영역 전반에 걸쳐 모델을 체계적으로 평가했다. 네 가지 주요 모델에 표준화된 질문을 입력한 뒤, 학회가 제시한 공식 정답지와의 일치율을 비교했다. 그 결과 최고 성능을 보인 ChatGPT(GPT-5 Thinking 아키텍처 사용)가 86.91%의 성공률을 기록하며 가장 우수한 성적을 거뒀고, 구글의 Gemini 역시 79.43%라는 준수한 성적을 기록하며 전문 의료 지식을 학습하고 합성하는 AI 시스템의 성장세를 입증했다.

하지만 이번 연구 결과는 복잡한 임상 시나리오에 필요한 추론의 깊이 측면에서 여전한 한계를 보여주었다. AI 모델들이 일반적인 해부학 지식이나 성인 외상 사례에서는 뛰어난 성능을 보였으나, 소아 외상이나 희귀 선천성 질환과 같은 세부적인 문제에서는 정확도가 눈에 띄게 낮아졌다. 이는 LLM이 방대한 정보 검색이나 기초 학습을 위한 강력한 도구일 수는 있어도, 노련한 전문의를 완전히 대체하기에는 부족함을 시사한다.

연구진은 이러한 기술을 기존 학습 방식을 보완하는 '부속 도구'로 인식해야 한다고 강조한다. 즉, AI는 자율적인 의사결정권자가 아니라 인간 전문가의 엄격한 감독과 비판적 검토가 반드시 동반되어야 하는 보조 수단이라는 의미다. 이는 최근 학계가 AI의 '추론' 능력을 측정하기 위해 전문 자격 시험을 활용하는 흐름과도 궤를 같이한다.

학생들에게 이는 AI가 언제든 수준 높은 의학 개념을 학습시켜 줄 훌륭한 과외 선생님이 될 수 있음을 보여준다. 다만 이는 '확률적' 기계 지능의 한계에 대한 경고이기도 하다. AI는 생물학적 이해를 바탕으로 결과를 '사유'하는 것이 아니라 다음에 올 단어를 예측할 뿐이기에, 미세한 오류조차 치명적일 수 있는 의료 현장에서는 인간의 최종 검토가 필수적이다. 향후 AI의 의료 교육 도입은 피할 수 없는 흐름이나, 그 성공 여부는 기계의 빠른 처리 능력과 수술실이 요구하는 절대적인 신뢰성 사이의 간극을 어떻게 좁히느냐에 달려 있다.