이 기사의 핵심 내용은?

ChatGPT-5는 다학제 종양 위원회와 적정 수준의 일치도를 보였으나 독립적인 임상 활용에는 신뢰성이 부족하다. 모델은 평균 90% 수준의 성능 점수를 기록했으나, 38%의 사례에서만 모든 질의에 일관된 응답을 보였다. 말기 암, 가임력 보존 치료, 유전자 검사 및 신규 치료법 통합 분야에서 AI의 정확도가 현저히 낮았다.

ChatGPT-5, 부인과 종양 임상 의사 결정 지원 성능 평가

•ChatGPT-5는 다학제 종양 위원회와 적정 수준의 일치도를 보였으나 독립적인 임상 활용에는 신뢰성이 부족하다.
•모델은 평균 90% 수준의 성능 점수를 기록했으나, 38%의 사례에서만 모든 질의에 일관된 응답을 보였다.
•말기 암, 가임력 보존 치료, 유전자 검사 및 신규 치료법 통합 분야에서 AI의 정확도가 현저히 낮았다.

•ChatGPT-5는 다학제 종양 위원회와 적정 수준의 일치도를 보였으나 독립적인 임상 활용에는 신뢰성이 부족하다.
•모델은 평균 90% 수준의 성능 점수를 기록했으나, 38%의 사례에서만 모든 질의에 일관된 응답을 보였다.
•말기 암, 가임력 보존 치료, 유전자 검사 및 신규 치료법 통합 분야에서 AI의 정확도가 현저히 낮았다.

2026년 6월 1일 Journal of Clinical Oncology에 발표된 연구는 부인과 종양학 분야에서 ChatGPT-5를 임상 의사 결정 지원 도구로 활용했을 때의 성능을 평가했다. 연구진은 34건의 난소암, 41건의 자궁내막암, 16건의 자궁경부암, 6건의 희귀 종양 등 총 97건의 암 사례를 분석하여, 추쿠로바 대학교(Cukurova University) 다학제 종양 위원회(MDT)의 권고안과 AI의 권고안을 비교했다. 표준화된 임상 요약 정보를 모델에 입력했으며, 세 번의 각기 다른 시점에 질의를 반복하여 재현성을 검증했다.

두 명의 맹검 종양 전문의가 평가한 결과, ChatGPT-5의 평균 성능 점수는 89.8%에서 90.1%로 나타난 반면, MDT는 93.8%에서 94.2%를 기록했다(p<0.001). MDT와 AI 모두 높은 평가자 간 신뢰도를 보였으나, 두 주체 간의 일치도는 공정 수준(Cohen’s kappa κ=0.267에서 0.341)에 그쳤다. 특히 ChatGPT-5가 세 번의 질의 모두에서 동일한 결론을 도출한 사례는 전체의 38%(37/97)에 불과했다.

하위 그룹 분석에 따르면 AI는 초기 단계 질환에서 상대적으로 우수한 성능을 보였으나(p=0.024), 복잡한 시나리오에서는 한계를 드러냈다. 특히 가임력 보존 접근법(p=0.045), 유전자 검사(p=0.019), 신규 치료제(p=0.012) 권고 부문에서 성능이 저조했다. 연구진은 해당 모델이 독립적인 의사 결정을 내리기에는 신뢰성이 부족하며, 임상적 안전성을 위해 인간 전문가의 판단이 여전히 필수적이라고 결론지었다.

2026년 6월 1일 Journal of Clinical Oncology에 발표된 연구는 부인과 종양학 분야에서 ChatGPT-5를 임상 의사 결정 지원 도구로 활용했을 때의 성능을 평가했다. 연구진은 34건의 난소암, 41건의 자궁내막암, 16건의 자궁경부암, 6건의 희귀 종양 등 총 97건의 암 사례를 분석하여, 추쿠로바 대학교(Cukurova University) 다학제 종양 위원회(MDT)의 권고안과 AI의 권고안을 비교했다. 표준화된 임상 요약 정보를 모델에 입력했으며, 세 번의 각기 다른 시점에 질의를 반복하여 재현성을 검증했다.

두 명의 맹검 종양 전문의가 평가한 결과, ChatGPT-5의 평균 성능 점수는 89.8%에서 90.1%로 나타난 반면, MDT는 93.8%에서 94.2%를 기록했다(p<0.001). MDT와 AI 모두 높은 평가자 간 신뢰도를 보였으나, 두 주체 간의 일치도는 공정 수준(Cohen’s kappa κ=0.267에서 0.341)에 그쳤다. 특히 ChatGPT-5가 세 번의 질의 모두에서 동일한 결론을 도출한 사례는 전체의 38%(37/97)에 불과했다.

하위 그룹 분석에 따르면 AI는 초기 단계 질환에서 상대적으로 우수한 성능을 보였으나(p=0.024), 복잡한 시나리오에서는 한계를 드러냈다. 특히 가임력 보존 접근법(p=0.045), 유전자 검사(p=0.019), 신규 치료제(p=0.012) 권고 부문에서 성능이 저조했다. 연구진은 해당 모델이 독립적인 의사 결정을 내리기에는 신뢰성이 부족하며, 임상적 안전성을 위해 인간 전문가의 판단이 여전히 필수적이라고 결론지었다.