ChatGPT-5, 부인과 종양 임상 의사 결정 지원 성능 평가
- •ChatGPT-5는 다학제 종양 위원회와 적정 수준의 일치도를 보였으나 독립적인 임상 활용에는 신뢰성이 부족하다.
- •모델은 평균 90% 수준의 성능 점수를 기록했으나, 38%의 사례에서만 모든 질의에 일관된 응답을 보였다.
- •말기 암, 가임력 보존 치료, 유전자 검사 및 신규 치료법 통합 분야에서 AI의 정확도가 현저히 낮았다.
2026년 6월 1일 Journal of Clinical Oncology에 발표된 연구는 부인과 종양학 분야에서 ChatGPT-5를 임상 의사 결정 지원 도구로 활용했을 때의 성능을 평가했다. 연구진은 34건의 난소암, 41건의 자궁내막암, 16건의 자궁경부암, 6건의 희귀 종양 등 총 97건의 암 사례를 분석하여, 추쿠로바 대학교(Cukurova University) 다학제 종양 위원회(MDT)의 권고안과 AI의 권고안을 비교했다. 표준화된 임상 요약 정보를 모델에 입력했으며, 세 번의 각기 다른 시점에 질의를 반복하여 재현성을 검증했다.
두 명의 맹검 종양 전문의가 평가한 결과, ChatGPT-5의 평균 성능 점수는 89.8%에서 90.1%로 나타난 반면, MDT는 93.8%에서 94.2%를 기록했다(p<0.001). MDT와 AI 모두 높은 평가자 간 신뢰도를 보였으나, 두 주체 간의 일치도는 공정 수준(Cohen’s kappa κ=0.267에서 0.341)에 그쳤다. 특히 ChatGPT-5가 세 번의 질의 모두에서 동일한 결론을 도출한 사례는 전체의 38%(37/97)에 불과했다.
하위 그룹 분석에 따르면 AI는 초기 단계 질환에서 상대적으로 우수한 성능을 보였으나(p=0.024), 복잡한 시나리오에서는 한계를 드러냈다. 특히 가임력 보존 접근법(p=0.045), 유전자 검사(p=0.019), 신규 치료제(p=0.012) 권고 부문에서 성능이 저조했다. 연구진은 해당 모델이 독립적인 의사 결정을 내리기에는 신뢰성이 부족하며, 임상적 안전성을 위해 인간 전문가의 판단이 여전히 필수적이라고 결론지었다.