LLMの医学試験挑戦:整形外科診断の精度を評価
- •ブラジルの整形外科・外傷専門医試験におけるLLMの性能を評価する新たな研究が発表された。
- •ChatGPTが正答率86.91%で首位に立ち、Geminiの79.43%を上回った。
- •各モデルは専門分野ごとに性能差があり、特に小児外傷の診断で苦戦する傾向が見られた。
高度な専門知識が求められる医療試験と人工知能の交差点は、AIの教育利用を模索する研究者の重要な関心事となっている。学術誌『Journal of the Foot & Ankle』に掲載された最近の研究では、ブラジル整形外科・外傷学会が実施するTEOTおよびTARO試験の計107問を用いて、主要な生成AIモデルの能力を厳密にテストした。これらの試験は筋骨格系ケアを専門とする医師の登竜門であり、AIが臨床現場での学習補助や診断支援として機能するかを検証することが目的だ。
評価は整形外科の解剖学、成人外傷、先天的な小児疾患といった専門領域にわたって体系的に実施された。研究チームは4つの主要なAIモデルに標準的なプロンプトを入力し、学会が提供する正解と比較した。結果として、ChatGPT(GPT-5 Thinkingアーキテクチャ採用)が86.91%という高い正答率を記録し、Geminiが79.43%で続く形となった。これは医療専門知識を学習・統合するAIの能力が着実に向上していることを示している。
一方で、臨床現場で求められる深い推論能力には依然として課題が残る。一般解剖学や成人外傷では高い能力を発揮したモデルも、小児外傷や希少な先天性疾患のニュアンスを含む問題では精度が著しく低下した。これは、AIが広範な情報検索や基礎学習には有益である一方、熟練した専門医の代替には至っていないことを示唆している。研究者らは、これらの技術を伝統的な学習の補助ツールと位置づけ、人間による批判的な監視が不可欠だと強調する。
本研究は、AIモデルの推論能力を確立された専門資格試験で測定するというアカデミックな潮流を浮き彫りにした。学生にとっては、AIがいつでも高度な医学概念を確認できる24時間体制の家庭教師となり得る可能性を示している。しかし、これは「確率的」な機械知能の限界を示す教訓でもある。
AIは生物学的な洞察に基づいて臨床的結論を「思考」しているわけではなく、次に出現する可能性が高い単語を予測しているに過ぎない。そのため、微細な誤りであっても現実の問題として残り、人間による監督が必要となる。医療現場へのAI導入は不可避であるが、その成功は、印象的な処理速度と手術室で求められる絶対的な信頼性をいかに峻別できるかにかかっている。