GPT-4o, 의료 텍스트 해석 성능 부족
- •GPT-4o가 의료 텍스트 특성 기여도 해석에서 기존 SHAP 및 IG 방식의 신뢰성에 미치지 못함.
- •200건의 임상 연구를 바탕으로 총 80,901개의 토큰을 활용해 GPT-4o의 자율 설명 능력을 평가함.
- •GPT-4o는 AOPC 충실도 점수에서 0.025-0.029를 기록해 SHAP(0.222) 및 IG(0.225)보다 현저히 낮았음.
2026년 6월 10일 JMIR Medical Informatics에 게재된 연구에 따르면, 의료 텍스트 분류 모델인 BioLinkBERT의 자율 설명자로서 GPT-4o의 효율성을 평가했다. 연구진인 판 저우(Fan Zhou), 아시르바니 사하(Ashirbani Saha), 신시아 로커(Cynthia Lokker)는 텍스트 분류의 중요 특징을 파악하기 위해 GPT-4o를 기존 해석 도구인 SHAP(Shapley Additive Explanations) 및 IG(Integrated Gradients)와 비교했다.
연구는 McMaster Premium Literature Service(PLUS)와 Clinical Hedges 데이터베이스에서 추출한 200건의 의료 연구를 분석했다. 평가에는 6,369개의 고유 식별자에 걸친 80,901개의 토큰이 사용되었다. 분석 결과, SHAP과 IG는 높은 충실도를 보이며 'randomized'와 같은 임상적 핵심 용어를 정확히 식별했으나, GPT-4o의 충실도 점수는 0.025-0.029로 상당히 낮았다. 상관관계 분석 결과에서도 SHAP과 IG는 피어슨 상관계수 r=0.367을 보인 반면, GPT-4o는 r≤0.032에 그쳤다.
연구진은 GPT-4o가 기존 프레임워크에 비해 중요 특징을 정확하게 종합하지 못하며, 섭동 기반 설명 가능성(perturbation-based explainability)을 확보하기에는 신뢰성이 부족하다고 결론지었다. 또한 반복적인 API 호출로 인해 GPT-4o가 IG 방식보다 비용이 높고 처리 속도도 느린 것으로 확인되었다. 임상 문헌 분석에서 중요 특징을 파악하는 데는 IG가 가장 효율적인 방식임이 증명되었다.