この記事の要点は？

Gemini 2.5が透過性および混合性密度の顎骨病変の画像解析において他モデルを上回った。 ChatGPT 4.0が不透過性顎骨病変の評価において試験したモデルの中で最も高い性能を示した。 3つのLLMで診断精度に大きなばらつきがあり、臨床導入にはさらなる検証が必要である。

LLMによる顎骨病変の画像診断精度を評価

•Gemini 2.5が透過性および混合性密度の顎骨病変の画像解析において他モデルを上回った。
•ChatGPT 4.0が不透過性顎骨病変の評価において試験したモデルの中で最も高い性能を示した。
•3つのLLMで診断精度に大きなばらつきがあり、臨床導入にはさらなる検証が必要である。

研究チームは、ChatGPT 4.0、Gemini 2.5、Microsoft Copilotの3つのAIチャットボットを使用し、120枚のパノラマX線画像を用いて顎骨病変の識別精度を評価した。2026年7月1日に『Diagnostics』誌で発表された本研究では、各モデルに対して混合性、透過性、不透過性の密度を持つ病変の解析を求めた。標準化された評価基準には、形態、境界の特性、隣接構造への影響、全体的な生物学的挙動の指標が含まれている。

クラスカル・ウォリス検定を用いた統計解析の結果、モデル間で有意な性能差が明らかになった。Gemini 2.5は、透過性病変（11.49 ± 4.97）および混合性病変（9.01 ± 5.78）において最も高い診断スコアを達成した。対照的に、ChatGPT 4.0は不透過性病変の解析において最も優れた結果を示した（10.93 ± 2.88）。Microsoft Copilotは、研究対象となったすべての病変カテゴリーにおいて一貫して最も低い診断スコアを記録した。

著者らは、これらの大規模言語モデルがX線評価における補助的な臨床ツールとなる可能性を示しつつも、モデルや病変のパターンによって診断能力が大きく左右されるため、日常的な歯科診療での採用にはさらなる検証が不可欠であると結論付けた。

研究チームは、ChatGPT 4.0、Gemini 2.5、Microsoft Copilotの3つのAIチャットボットを使用し、120枚のパノラマX線画像を用いて顎骨病変の識別精度を評価した。2026年7月1日に『Diagnostics』誌で発表された本研究では、各モデルに対して混合性、透過性、不透過性の密度を持つ病変の解析を求めた。標準化された評価基準には、形態、境界の特性、隣接構造への影響、全体的な生物学的挙動の指標が含まれている。

クラスカル・ウォリス検定を用いた統計解析の結果、モデル間で有意な性能差が明らかになった。Gemini 2.5は、透過性病変（11.49 ± 4.97）および混合性病変（9.01 ± 5.78）において最も高い診断スコアを達成した。対照的に、ChatGPT 4.0は不透過性病変の解析において最も優れた結果を示した（10.93 ± 2.88）。Microsoft Copilotは、研究対象となったすべての病変カテゴリーにおいて一貫して最も低い診断スコアを記録した。

著者らは、これらの大規模言語モデルがX線評価における補助的な臨床ツールとなる可能性を示しつつも、モデルや病変のパターンによって診断能力が大きく左右されるため、日常的な歯科診療での採用にはさらなる検証が不可欠であると結論付けた。