이 기사의 핵심 내용은?

Gemini 2.5가 방사선 투과성 및 혼합 밀도 치아 병변 분석에서 타 모델 대비 높은 성능을 기록했다. ChatGPT 4.0은 방사선 불투과성 치아 병변 평가에서 비교 모델 중 가장 우수한 성적을 보였다. 연구 결과 LLM 간 진단 정확도 편차가 커, 임상 적용 전 추가 검증이 필수적인 것으로 나타났다.

LLM 3종의 치아 병변 진단 정확도 분석 결과

•Gemini 2.5가 방사선 투과성 및 혼합 밀도 치아 병변 분석에서 타 모델 대비 높은 성능을 기록했다.
•ChatGPT 4.0은 방사선 불투과성 치아 병변 평가에서 비교 모델 중 가장 우수한 성적을 보였다.
•연구 결과 LLM 간 진단 정확도 편차가 커, 임상 적용 전 추가 검증이 필수적인 것으로 나타났다.

연구진은 ChatGPT 4.0, Gemini 2.5, Microsoft Copilot 등 3종의 AI 챗봇을 활용해 파노라마 방사선 사진 120장을 분석하고 진단 정확도를 평가했다. 2026년 7월 1일 학술지 Diagnostics에 게재된 이 연구는 혼합, 방사선 투과성, 방사선 불투과성 병변 밀도를 갖춘 이미지를 대상으로 모델별 성능을 측정했다. 평가는 형태, 경계 특성, 인접 구조물 영향, 전반적인 생물학적 행동 지표를 기준으로 진행되었다.

크루스칼-왈리스 검정을 통한 통계 분석 결과, 모델 간 성능 차이가 뚜렷하게 나타났다. Gemini 2.5는 방사선 투과성 병변(11.49 ± 4.97)과 혼합 밀도 병변(9.01 ± 5.78)에서 가장 높은 진단 점수를 받았다. 반면, 방사선 불투과성 병변 분석에서는 ChatGPT 4.0이 10.93 ± 2.88점으로 가장 우수한 성능을 보였다. Microsoft Copilot은 모든 병변 범주에서 가장 낮은 진단 점수를 기록했다.

연구진은 LLM이 방사선 평가를 위한 보조 임상 도구로서의 잠재력은 있으나, 모델별 성능 차이가 커 실제 치과 진료 도입에는 추가 검증이 필요하다고 결론지었다. 이번 연구는 진단 능력이 특정 모델과 병변의 방사선학적 패턴에 따라 달라질 수 있음을 시사한다.

연구진은 ChatGPT 4.0, Gemini 2.5, Microsoft Copilot 등 3종의 AI 챗봇을 활용해 파노라마 방사선 사진 120장을 분석하고 진단 정확도를 평가했다. 2026년 7월 1일 학술지 Diagnostics에 게재된 이 연구는 혼합, 방사선 투과성, 방사선 불투과성 병변 밀도를 갖춘 이미지를 대상으로 모델별 성능을 측정했다. 평가는 형태, 경계 특성, 인접 구조물 영향, 전반적인 생물학적 행동 지표를 기준으로 진행되었다.

크루스칼-왈리스 검정을 통한 통계 분석 결과, 모델 간 성능 차이가 뚜렷하게 나타났다. Gemini 2.5는 방사선 투과성 병변(11.49 ± 4.97)과 혼합 밀도 병변(9.01 ± 5.78)에서 가장 높은 진단 점수를 받았다. 반면, 방사선 불투과성 병변 분석에서는 ChatGPT 4.0이 10.93 ± 2.88점으로 가장 우수한 성능을 보였다. Microsoft Copilot은 모든 병변 범주에서 가장 낮은 진단 점수를 기록했다.

연구진은 LLM이 방사선 평가를 위한 보조 임상 도구로서의 잠재력은 있으나, 모델별 성능 차이가 커 실제 치과 진료 도입에는 추가 검증이 필요하다고 결론지었다. 이번 연구는 진단 능력이 특정 모델과 병변의 방사선학적 패턴에 따라 달라질 수 있음을 시사한다.