RSNA, 의료 AI 검증을 위한 ‘REVEAL-CXR’ 벤치마크 공개
- •RSNA가 멀티모달 대규모 언어 모델(MLLM) 평가를 위해 전문가 검증을 마친 흉부 엑스레이 200건 기반의 REVEAL-CXR 벤치마크를 출시했다.
- •연구진은 GPT-4o와 Phi-4-Reasoning을 활용해 초기 라벨링을 자동화했으며, 이후 방사선 전문의의 엄격한 검증을 거쳐 정확도를 높였다.
- •데이터셋은 AI 모델의 공정한 평가를 위해 공개 데이터 100건과 RSNA 독립 평가용 비공개 데이터 100건으로 구성된다.
북미방사선의학회(RSNA)가 일반 인공지능의 능력과 전문 의료 진단 사이의 간극을 메우기 위해 설계된 고품질 벤치마크인 REVEAL-CXR을 도입했다. 멀티모달 대규모 언어 모델(MLLM)이 전문의 자격시험을 통과하는 등 놀라운 가능성을 보여준 것은 사실이다. 하지만 전문가가 엄선한 데이터 없이는 이들의 실제 임상 유용성을 정확히 측정하기 어려웠다. 이번 데이터셋은 17명의 세부 전공 방사선 전문의가 정밀 검증한 200건의 흉부 방사선 연구를 제공해 이러한 공백을 메운다.
의료 라벨링이라는 노동 집약적인 과정을 효율화하기 위해 연구팀은 하이브리드 AI 지원 워크플로우를 구축했다. 먼저 OpenAI의 GPT-4o를 활용해 기존 판독문에서 이상 소견을 추출했다. 그 다음, 논리적 추론에 최적화된 로컬 모델인 Phi-4-Reasoning을 사용해 이를 특정 진단 범주로 분류했다. 이러한 반자동화 파이프라인 덕분에 전문가들은 처음부터 작업하는 대신 AI의 제안을 검증하는 데 집중할 수 있었고, 정답 데이터의 정확성을 유지하면서도 작업 효율을 극대화했다.
결과물인 벤치마크는 개발을 위한 공개 세트 100건과 독립적인 평가를 위해 남겨둔 비공개 세트 100건으로 나뉜다. REVEAL-CXR은 희귀 소견과 복잡한 임상 시나리오를 우선적으로 배치해 모델이 단순한 패턴 암기를 넘어 심층적인 분석을 수행하도록 도전 과제를 제시한다. 이는 의료와 같은 고위험 환경에서 안전성을 확인하기 위해, AI를 활용해 AI를 위한 안전장치와 평가 지표를 만드는 최신 산업 트렌드를 잘 보여주는 사례다.