대장내시경 품질 관리 자동화하는 LLM 파이프라인 개발
- •연구진이 자유 형식의 의료 보고서에서 대장내시경 품질 지표를 추출하는 프롬프트 기반 LLM 파이프라인을 구축했다.
- •해당 모델은 용종 탐지에서 96%, 대장내시경 완료 여부 판단에서 95%의 정확도를 기록했다.
- •2009년부터 2024년까지의 보고서 22,577건을 학습에 활용했으며, 2025년 수동 주석 데이터 537건으로 검증했다.
알다 안드라데(Alda Andrade)와 동료 연구진이 자유 형식의 의료 보고서에서 대장내시경 품질 지표를 자동으로 추출하는 프롬프트 기반의 거대언어모델 파이프라인을 개발했다. 2026년에 발표된 이 연구는 2009년부터 2024년 사이에 3차 의료기관에서 생성된 임상 보고서 22,577건을 활용했다. 모델의 성능은 숙련된 내시경 전문의가 2025년에 수동으로 주석을 단 보고서 537건을 대조군으로 사용하여 검증했다.
이 파이프라인은 최대 대장 도달 범위, 장 세척 품질, 용종 탐지 등 핵심 지표를 성공적으로 식별했다. 분석 결과, 대장내시경 완료 여부 판단에서 95%의 정확도와 0.95의 F1-score를 기록했다. 용종 탐지의 경우 96%의 정확도와 0.96의 F1-score를 나타냈다. 장 세척 상태 평가에서는 전체 정확도 93%를 달성했으며, 세부적으로는 적절한 준비 상태에서 0.99, 부적절한 경우 0.80, 준비 상태가 언급되지 않은 보고서에서는 0.88의 F1-score를 보였다.
또한, 이 모델은 용종 개수를 0개, 1개, 2개, 3개 이상으로 구분하는 다중 분류 작업에서 0.93의 가중 F1-score를 달성했다. 연구진은 이 접근 방식이 내시경 검사의 확장 가능한 품질 감사를 가능하게 한다고 설명했다. 다만 장 세척 상태가 부적절하거나 희귀한 대장 도달 범주가 포함된 사례에 대해서는 추가적인 개선이 필요하다고 덧붙였다. 이러한 파이프라인은 일상적인 임상 문서 분석을 자동화하여 의료 현장에서의 품질 관리를 지원할 잠재력을 보여준다.