이 기사의 핵심 내용은?

매사추세츠 종합병원(Mass General Brigham) 연구 결과, 21개 LLM이 열린 형태의 감별 진단에서 큰 어려움을 겪는 것으로 나타났다. 모델들은 최종 진단명 도출에서는 90% 이상의 성공률을 보였으나, 초기 추론 단계에서는 한계를 드러냈다. 연구진은 현재의 범용 LLM이 감독 없는 임상 현장에 도입되기에는 시기상조라고 경고했다.

의료 AI, 진단 과정의 불확실성 해결에 난항

•매사추세츠 종합병원(Mass General Brigham) 연구 결과, 21개 LLM이 열린 형태의 감별 진단에서 큰 어려움을 겪는 것으로 나타났다.
•모델들은 최종 진단명 도출에서는 90% 이상의 성공률을 보였으나, 초기 추론 단계에서는 한계를 드러냈다.
•연구진은 현재의 범용 LLM이 감독 없는 임상 현장에 도입되기에는 시기상조라고 경고했다.

•매사추세츠 종합병원(Mass General Brigham) 연구 결과, 21개 LLM이 열린 형태의 감별 진단에서 큰 어려움을 겪는 것으로 나타났다.
•모델들은 최종 진단명 도출에서는 90% 이상의 성공률을 보였으나, 초기 추론 단계에서는 한계를 드러냈다.
•연구진은 현재의 범용 LLM이 감독 없는 임상 현장에 도입되기에는 시기상조라고 경고했다.

의료 생태계에 생성형 인공지능이 도입되는 속도가 매우 빠르지만, 최근 발표된 연구는 속도와 정확성이 항상 비례하는 것은 아님을 시사한다. 매사추세츠 종합병원의 MESH 인큐베이터 연구진은 21개의 범용 대규모 언어 모델이 복잡한 임상 추론을 어떻게 수행하는지 엄격히 평가했다.

JAMA 네트워크 오픈(JAMA Network Open)에 게재된 이 연구는 모델이 최종 진단을 내리는 능력과 환자 진료의 초기 단계인 복잡한 상황을 헤쳐 나가는 능력 사이에 상당한 격차가 있음을 강조한다. 감별 진단은 의사가 환자의 증상을 설명할 수 있는 모든 잠재적 질환을 나열하는 필수적인 초기 과정이다.

이 과정은 높은 수준의 불확실성을 관리하고, 상충하는 가설의 균형을 맞추며, 반복적으로 정보를 수집해야 한다. 최신 모델인 GPT-5와 Gemini 3.0 Flash 등을 포함한 실험 대상들은 임상 정보가 완전히 갖춰진 후 최종 진단을 내리는 데는 높은 정확도를 보였다. 그러나 80% 이상의 경우에서 적절한 감별 진단 목록을 생성하지 못하는 결과를 보였다.

연구진은 이러한 AI 시스템이 성급하게 단 하나의 결정적인 답변을 내놓으려는 경향이 있다고 분석했다. 불확실성을 유지하며 점진적으로 증거를 쌓아가는 훈련을 받은 의료진과 달리, 이 모델들은 추론 파트너보다는 답변 엔진으로 최적화되어 있다.

명확한 검사 결과가 부족한 임상 사례에 직면했을 때, 모델들은 의대생이나 숙련된 의사가 본능적으로 고려할 다양한 가능성을 충분히 제시하지 못한다. 이러한 정보 처리 방식의 차이는 현재의 AI 아키텍처가 임상 추론의 핵심인 반복적이고 회의적인 성격과 근본적으로 정렬되어 있지 않음을 시사한다.

이를 측정하기 위해 연구진은 PrIME-LLM이라는 새로운 지표를 개발하여 5개 임상 추론 영역에서 정확도를 수치화했다. 검사 결과나 영상 정보 같은 보조 데이터가 제공될 때조차 모델의 핵심적인 추론 한계는 극복되지 않았다. 이는 단순한 데이터 추가가 AI의 진단적 세밀함 부족에 대한 근본적인 해결책이 아님을 의미한다.