この記事の要点は？

僧帽弁手術に関する患者教育において、5つのLLMの性能を3つの指標で比較した。 ChatGPT-4oとGemini 2.5 Pro Previewが、他のモデルと比較してより高い精度スコアを記録した。 Claude 3.7 Sonnetは、患者とのコミュニケーションに適した最も読みやすく簡潔な回答を提供した。

僧帽弁手術の患者教育におけるLLMの有効性

•僧帽弁手術に関する患者教育において、5つのLLMの性能を3つの指標で比較した。
•ChatGPT-4oとGemini 2.5 Pro Previewが、他のモデルと比較してより高い精度スコアを記録した。
•Claude 3.7 Sonnetは、患者とのコミュニケーションに適した最も読みやすく簡潔な回答を提供した。

バヌ・バーリエ・アクダグ(Banu Bahriye Akdag)、M. バデムチ(M. Bademci)、I. ペケル(I. Peker)の研究チームは、ChatGPT-4o、Claude 3.7 Sonnet、Gemini 2.5 Pro Preview、DeepSeek-V3、Microsoft Copilotの5つの大規模言語モデルを評価した。この研究は、僧帽弁手術(MVS)に関する7つの一般的な質問に対するモデルの回答能力を調査したもので、2026年6月29日に学術誌「BMC Medical Informatics and Decision Making」で公開された。評価基準は精度、網羅性、可読性の3点である。

結果として、全評価項目において統計的に有意な差が見られた(p < 0.001)。精度に関してはChatGPT-4oとGemini 2.5 Pro Previewが中央値5を記録し、Claude 3.7 SonnetとMicrosoft Copilotの4を上回った。網羅性ではGemini 2.5 Pro Previewが中央値5で首位に立ち、Claude 3.7 Sonnetは3であった。一方、可読性についてはClaude 3.7 Sonnetが最も優れており、SMOG Indexでは10.90、Flesch-Kincaid Grade Levelでは8.0を記録した。これはChatGPT-4oのスコア12.24および9.04と比較して有意な差である(それぞれp < 0.006、p < 0.004)。研究チームは、LLMは患者教育に有望なツールであるものの、モデル間で精度や網羅性にばらつきがあるため、専門家による臨床的な監督が不可欠であると結論付けた。

バヌ・バーリエ・アクダグ(Banu Bahriye Akdag)、M. バデムチ(M. Bademci)、I. ペケル(I. Peker)の研究チームは、ChatGPT-4o、Claude 3.7 Sonnet、Gemini 2.5 Pro Preview、DeepSeek-V3、Microsoft Copilotの5つの大規模言語モデルを評価した。この研究は、僧帽弁手術(MVS)に関する7つの一般的な質問に対するモデルの回答能力を調査したもので、2026年6月29日に学術誌「BMC Medical Informatics and Decision Making」で公開された。評価基準は精度、網羅性、可読性の3点である。

結果として、全評価項目において統計的に有意な差が見られた(p < 0.001)。精度に関してはChatGPT-4oとGemini 2.5 Pro Previewが中央値5を記録し、Claude 3.7 SonnetとMicrosoft Copilotの4を上回った。網羅性ではGemini 2.5 Pro Previewが中央値5で首位に立ち、Claude 3.7 Sonnetは3であった。一方、可読性についてはClaude 3.7 Sonnetが最も優れており、SMOG Indexでは10.90、Flesch-Kincaid Grade Levelでは8.0を記録した。これはChatGPT-4oのスコア12.24および9.04と比較して有意な差である(それぞれp < 0.006、p < 0.004)。研究チームは、LLMは患者教育に有望なツールであるものの、モデル間で精度や網羅性にばらつきがあるため、専門家による臨床的な監督が不可欠であると結論付けた。