실어증 치료를 위한 AI 언어 접근성 벤치마크 연구
- •연구진이 실어증 치료 임상 대화에서 대규모 언어 모델(LLM)의 접근성을 시험하기 위한 ABCD 시뮬레이션 프레임워크를 개발했다.
- •이번 연구는 16가지 표준화된 가독성 지표를 사용하여 Claude, GPT, Gemini 모델의 성능을 다각도로 벤치마킹했다.
- •연구 결과 Gemini가 제로샷 작업에서 뛰어난 성능을 보였으며, 퓨샷 프롬프팅과 고급 추론 모드가 전반적인 임상 접근성을 개선했다.
제럴드 C. 이매주(Gerald C. Imaezue), K. V. 마람(K. V. Maram), 데이비드 아자이(David Ajayi)를 포함한 연구진은 2026년 6월 24일 '언어 청각 장애 저널(Journal of Speech, Language and Hearing Research)'에 대규모 언어 모델의 실어증 치료 활용 가능성을 평가한 연구 결과를 발표했다. 이들은 에이전트 기반 대화형 대화(ABCD) 시뮬레이션 방식을 활용해, 언어 장애를 가진 AI 시뮬레이션 환자와 상호작용하는 AI 임상의를 테스트했다. 해당 전임상 테스트 환경은 실제 환자 없이도 다회차 음성 치료 대화를 평가할 수 있도록 설계됐다.
연구진은 Claude, GPT, Gemini 모델군을 대상으로 제로샷 및 퓨샷 프롬프팅, 표준 및 고급 추론 모드 등 다양한 구성을 벤치마킹했다. 모델이 반응 정교화 훈련(Response Elaboration Training) 과정에서 얼마나 이해하기 쉬운 임상 언어를 생성하는지는 플레시 가독성 수치(Flesch Reading Ease)와 데일-챌 점수(Dale-Chall score)를 포함한 16가지 표준 가독성 지표로 측정됐다.
실험 결과 아키텍처에 따라 접근성 특성이 확연히 다르게 나타났다. 일반적으로 퓨샷 프롬프팅과 고급 추론 모드는 응답의 접근성을 높이는 효과를 보였으며, 그중 Gemini는 제로샷 및 표준 추론 조건에서 우수한 성능을 입증했다. 연구진은 LLM이 장애가 있는 언어에 대응하는 방식에 체계적인 차이가 존재한다며, ABCD 프레임워크가 의사소통 재활 임상 적용 전 대화형 에이전트를 평가할 수 있는 확장 가능한 방법론이라고 결론지었다.