医療テキスト解析におけるGPT-4oの信頼性不足が判明
- •GPT-4oは医療テキストの重要単語特定において、既存のSHAPやIGに比べ信頼性が低い。
- •本研究では200件の臨床研究を対象に、計80,901トークンを用いてGPT-4oの自律的な説明能力を評価した。
- •GPT-4oのAOPC忠実度スコアは0.025-0.029にとどまり、SHAPの0.222やIGの0.225を大きく下回った。
2026年6月10日にJMIR Medical Informaticsで発表された研究において、BioLinkBERTモデルを用いた医療テキスト分類に対し、GPT-4oが自律的な説明者として機能するかどうかが検証された。研究者のファン・ジョウ(Fan Zhou)、アシールバニ・サハ(Ashirbani Saha)、シンシア・ロッカー(Cynthia Lokker)は、既存の解釈手法であるSHAPおよびIGとGPT-4oの性能を比較し、テキスト分類における特徴量の重要性を評価した。
調査ではMcMaster Premium Literature Service (PLUS)およびClinical Hedgesデータベースから選別された200件の臨床研究が用いられ、予測が困難な低確信度データに焦点を当てた。評価対象は6,369個のユニークな識別子にまたがる80,901トークンに及ぶ。SHAPが0.222(95% CI 0.200-0.244)、IGが0.225(95% CI 0.202-0.247)の高い忠実度を示し「ランダム化」といった臨床用語を正確に識別した一方で、GPT-4oの忠実度スコアは0.025-0.029と著しく低かった。ピアソン相関係数においても、SHAPとIG間ではr=0.367の相関が見られたが、GPT-4oはr≤0.032にとどまり、既存手法との整合性がほとんど確認されなかった。
研究チームは、GPT-4oが従来のフレームワークと比較して特徴量の重要性を正確に合成できず、摂動ベースの解釈性に求められる信頼性を欠くと結論付けた。また、GPT-4oはAPIの反復呼び出しを要するため、臨床文献解析において最も効率的であったIGと比較して、計算コストと処理時間において大幅に劣ることも判明した。