이 기사의 핵심 내용은?

UCSF 연구진은 2025년 1월부터 3월까지 간 질환 상담 응답을 위해 개발된 맞춤형 LLM인 LiVersa를 평가했다. 인간 평가자는 응답 초안의 83%가 적절한 권고를 담고 있다고 보았으나, 3.4%는 심각한 위해 위험이 있는 것으로 분석됐다. OpenAI-o1은 인간 임상의보다 엄격한 잣대를 적용하여 더 높은 잠재적 위해 가능성을 식별해냈다.

간 질환 상담 AI 'LiVersa'의 임상적 정확도 및 안전성 평가

•UCSF 연구진은 2025년 1월부터 3월까지 간 질환 상담 응답을 위해 개발된 맞춤형 LLM인 LiVersa를 평가했다.
•인간 평가자는 응답 초안의 83%가 적절한 권고를 담고 있다고 보았으나, 3.4%는 심각한 위해 위험이 있는 것으로 분석됐다.
•OpenAI-o1은 인간 임상의보다 엄격한 잣대를 적용하여 더 높은 잠재적 위해 가능성을 식별해냈다.

•UCSF 연구진은 2025년 1월부터 3월까지 간 질환 상담 응답을 위해 개발된 맞춤형 LLM인 LiVersa를 평가했다.
•인간 평가자는 응답 초안의 83%가 적절한 권고를 담고 있다고 보았으나, 3.4%는 심각한 위해 위험이 있는 것으로 분석됐다.
•OpenAI-o1은 인간 임상의보다 엄격한 잣대를 적용하여 더 높은 잠재적 위해 가능성을 식별해냈다.

캘리포니아 대학교 샌프란시스코(UCSF) 연구진은 2025년 1월부터 3월까지 간 질환 전자 상담 업무를 지원하기 위해 제작된 맞춤형 대규모언어모델(LLM) LiVersa를 평가했다. 이번 연구는 총 61건의 전자 상담 사례를 분석 대상으로 삼았으며, 주요 사례는 간 기능 이상 검사(34%), B형 간염(23%), 영상 검사 이상(21%) 순이었다.

분석 결과, LiVersa가 작성한 초안은 인간이 작성한 응답과 통계적으로 유사했다. 평균 단어 수는 284개로 인간의 264개와 큰 차이가 없었고(p=0.47), 문장 길이 역시 각각 24개 단어와 25개 단어로 비슷했다(p=0.44). 전문가 평가 결과, 초안의 83%가 사례별로 적절한 권고안을 제시했으며 72%는 임상적 조언을 시작하기 위한 합리적인 기초 자료로 평가됐다. 다만 10%는 오해의 소지가 있는 정보를 포함했고, 3.4%는 심각한 위해를 초래할 위험이 있었다.

또한 연구진은 'LLM-as-a-judge' 방식을 통해 인간 평가자와 OpenAI-o1의 평가 결과를 비교했다. 인간 전문가는 초안의 48%를 임상적으로 동등하다고 판단했으나, 모델 평가자는 더 보수적인 기준을 적용해 27%만이 동등하다고 보았고 67%는 잠재적으로 유해할 수 있다고 지적했다. 이러한 차이에도 불구하고 두 평가 집단은 주요 정확도 지표에서 일치된 경향을 보였다(TOST p<0.05). 이번 결과는 AI가 임상 응답을 초안하는 데 유용할 수 있지만, 구현 과정에서 인간의 필수적인 감독이 병행되어야 함을 시사한다.

캘리포니아 대학교 샌프란시스코(UCSF) 연구진은 2025년 1월부터 3월까지 간 질환 전자 상담 업무를 지원하기 위해 제작된 맞춤형 대규모언어모델(LLM) LiVersa를 평가했다. 이번 연구는 총 61건의 전자 상담 사례를 분석 대상으로 삼았으며, 주요 사례는 간 기능 이상 검사(34%), B형 간염(23%), 영상 검사 이상(21%) 순이었다.

분석 결과, LiVersa가 작성한 초안은 인간이 작성한 응답과 통계적으로 유사했다. 평균 단어 수는 284개로 인간의 264개와 큰 차이가 없었고(p=0.47), 문장 길이 역시 각각 24개 단어와 25개 단어로 비슷했다(p=0.44). 전문가 평가 결과, 초안의 83%가 사례별로 적절한 권고안을 제시했으며 72%는 임상적 조언을 시작하기 위한 합리적인 기초 자료로 평가됐다. 다만 10%는 오해의 소지가 있는 정보를 포함했고, 3.4%는 심각한 위해를 초래할 위험이 있었다.

또한 연구진은 'LLM-as-a-judge' 방식을 통해 인간 평가자와 OpenAI-o1의 평가 결과를 비교했다. 인간 전문가는 초안의 48%를 임상적으로 동등하다고 판단했으나, 모델 평가자는 더 보수적인 기준을 적용해 27%만이 동등하다고 보았고 67%는 잠재적으로 유해할 수 있다고 지적했다. 이러한 차이에도 불구하고 두 평가 집단은 주요 정확도 지표에서 일치된 경향을 보였다(TOST p<0.05). 이번 결과는 AI가 임상 응답을 초안하는 데 유용할 수 있지만, 구현 과정에서 인간의 필수적인 감독이 병행되어야 함을 시사한다.