임상 약학 사례에서의 LLM 성능 평가 연구
- •임상 약학 과제에서 대형언어모델(LLM)과 프롬프트 엔지니어링의 성능을 평가하는 연구가 수행되었다.
- •OpenEvidence는 모든 시험에서 ChatGPT 4o보다 유의미하게 높은 참고문헌 타당성을 보였다(p < 0.001).
- •분야 특화 RAG 모델이나 프롬프트 템플릿 사용이 전반적인 응답 정확도와 완전성을 유의미하게 개선하지는 못했다.
연구진은 2026년 6월 21일 Journal of the American College of Clinical Pharmacy에 발표된 단일 기관 전향적 연구를 통해 내과 임상 약학 분야에서의 LLM과 프롬프트 엔지니어링의 효과를 평가했다. 임상 약학 전문가가 50개의 사례 질문을 생성했으며, 실험은 일반 모델인 ChatGPT 4o와 외부의 검증된 데이터 소스를 모델에 연결하는 검색 증강 생성(RAG) 기술을 적용한 의료 특화 시스템을 비교하는 2x2 요인 설계 방식으로 진행되었다.
또한, 연구진은 답변의 질을 높이기 위한 구조화된 프롬프트 템플릿 활용의 영향을 분석했다. 2명의 약사가 응답 정확도와 완전성을 종합적으로 평가하고 3번째 약사가 최종 조정을 맡았다. 분석 결과, 모델 선택과 프롬프트 템플릿 사용 간에 주요 성과 지표에 대한 통계적으로 유의미한 상호작용은 발견되지 않았다.
정확도와 완전성 기준을 충족할 확률 점수는 템플릿 미사용 GPT 0.54, 템플릿 사용 GPT 0.60, 템플릿 미사용 OpenEvidence 0.64, 템플릿 사용 OpenEvidence 0.52로 나타났다. 하지만 OpenEvidence는 모든 조건에서 ChatGPT 4o보다 월등히 높은 참고문헌 타당성을 입증했다(p < 0.001). 연구진은 해당 방식들이 정확도나 완전성을 높이지는 못했으나, 분야 특화 시스템이 뛰어난 인용 신뢰도를 바탕으로 임상 적용 가능성을 시사한다고 분석했다. 이 연구는 메릴랜드 대학교 볼티모어(University of Maryland, Baltimore) IRB 프로토콜 HP-00112497 하에 수행되었다.