AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침FAQ문의하기

LLM을 활용한 승모판막 수술 환자 교육 효과 분석

LLM을 활용한 승모판막 수술 환자 교육 효과 분석

Semantic Scholar
2026년 7월 2일 (목)
  • •승모판막 수술 관련 환자 교육을 위해 5종의 대규모 언어 모델을 3가지 지표로 비교 평가했다.
  • •ChatGPT-4o와 Gemini 2.5 Pro Preview가 다른 모델 대비 높은 정확도 점수를 기록했다.
  • •Claude 3.7 Sonnet은 환자 소통을 위한 읽기 쉬운 설명 제공 면에서 가장 우수한 성능을 보였다.
  • •승모판막 수술 관련 환자 교육을 위해 5종의 대규모 언어 모델을 3가지 지표로 비교 평가했다.
  • •ChatGPT-4o와 Gemini 2.5 Pro Preview가 다른 모델 대비 높은 정확도 점수를 기록했다.
  • •Claude 3.7 Sonnet은 환자 소통을 위한 읽기 쉬운 설명 제공 면에서 가장 우수한 성능을 보였다.

바누 바리예 아크다(Banu Bahriye Akdag), M. 바뎀치(M. Bademci), I. 페케르(I. Peker) 연구팀은 승모판막 수술(MVS)에 관한 환자들의 공통 질문 7가지에 대해 ChatGPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Pro Preview, DeepSeek-V3, Microsoft Copilot 등 5개 모델의 답변 능력을 평가했다. 2026년 6월 29일 BMC Medical Informatics and Decision Making에 게재된 이번 연구는 정확도, 완전성, 가독성이라는 3가지 기준을 바탕으로 분석을 진행했다.

분석 결과 모든 지표에서 통계적으로 유의미한 성능 차이가 확인되었다(p < 0.001). 정확도 부문에서는 ChatGPT-4o와 Gemini 2.5 Pro Preview가 중간값 5점을 기록하며 4점을 받은 Claude 3.7 Sonnet과 Microsoft Copilot을 앞섰다. 답변의 완전성 면에서는 Gemini 2.5 Pro Preview가 중간값 5점으로 가장 높은 점수를 보였으며, Claude 3.7 Sonnet은 3점을 기록했다. 반면 가독성에서는 Claude 3.7 Sonnet이 SMOG Index 10.90, Flesch-Kincaid Grade Level 8.0으로 가장 이해하기 쉬운 응답을 제시했다. 이는 ChatGPT-4o의 12.24 및 9.04점과 비교해 통계적으로 유의미한 수치였다(p < 0.006 및 p < 0.004). 연구진은 LLM이 환자 교육에 활용될 잠재력은 크지만, 모델별 정확도와 완전성 편차를 고려할 때 의료 전문가의 철저한 검토가 필수적이라고 결론지었다.

바누 바리예 아크다(Banu Bahriye Akdag), M. 바뎀치(M. Bademci), I. 페케르(I. Peker) 연구팀은 승모판막 수술(MVS)에 관한 환자들의 공통 질문 7가지에 대해 ChatGPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Pro Preview, DeepSeek-V3, Microsoft Copilot 등 5개 모델의 답변 능력을 평가했다. 2026년 6월 29일 BMC Medical Informatics and Decision Making에 게재된 이번 연구는 정확도, 완전성, 가독성이라는 3가지 기준을 바탕으로 분석을 진행했다.

분석 결과 모든 지표에서 통계적으로 유의미한 성능 차이가 확인되었다(p < 0.001). 정확도 부문에서는 ChatGPT-4o와 Gemini 2.5 Pro Preview가 중간값 5점을 기록하며 4점을 받은 Claude 3.7 Sonnet과 Microsoft Copilot을 앞섰다. 답변의 완전성 면에서는 Gemini 2.5 Pro Preview가 중간값 5점으로 가장 높은 점수를 보였으며, Claude 3.7 Sonnet은 3점을 기록했다. 반면 가독성에서는 Claude 3.7 Sonnet이 SMOG Index 10.90, Flesch-Kincaid Grade Level 8.0으로 가장 이해하기 쉬운 응답을 제시했다. 이는 ChatGPT-4o의 12.24 및 9.04점과 비교해 통계적으로 유의미한 수치였다(p < 0.006 및 p < 0.004). 연구진은 LLM이 환자 교육에 활용될 잠재력은 크지만, 모델별 정확도와 완전성 편차를 고려할 때 의료 전문가의 철저한 검토가 필수적이라고 결론지었다.

원문 보기 (영어)·2026년 6월 29일
#healthcare#mitral valve surgery#llm#readability#medical education