AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
私たちのビジョン利用規約プライバシーお問い合わせ

ChatGPT-5の腫瘍学臨床判断への適応評価

ChatGPT-5の腫瘍学臨床判断への適応評価

Semantic Scholar
2026年6月8日 (月)
  • •ChatGPT-5は多職種腫瘍学ボードと一定の合致を示したが、独立した臨床利用には信頼性が不足している。
  • •モデルの平均パフォーマンススコアは約90%に達したが、全クエリで一貫した回答が得られたのは38%の事例にとどまった。
  • •進行がん、妊孕性温存治療、遺伝子検査、最新の治療法導入において、AIの精度は著しく低かった。
  • •ChatGPT-5は多職種腫瘍学ボードと一定の合致を示したが、独立した臨床利用には信頼性が不足している。
  • •モデルの平均パフォーマンススコアは約90%に達したが、全クエリで一貫した回答が得られたのは38%の事例にとどまった。
  • •進行がん、妊孕性温存治療、遺伝子検査、最新の治療法導入において、AIの精度は著しく低かった。

2026年6月1日にJournal of Clinical Oncology誌で発表された研究において、婦人科腫瘍学における臨床意思決定支援ツールとしてのChatGPT-5の性能が評価された。研究チームは卵巣がん34例、子宮内膜がん41例、子宮頸がん16例、希少腫瘍6例を含む計97件の症例を分析し、チュクロヴァ大学の集学的腫瘍ボード(MDT)の推奨事項とAIの回答を比較した。各症例は標準化された臨床サマリーを用いて処理され、モデルに対する3回にわたるクエリによって再現性が検証された。

2名の腫瘍専門医による評価では、ChatGPT-5の平均パフォーマンススコアは89.8%〜90.1%であり、MDTの93.8%〜94.2%と比較して有意差が認められた(p<0.001)。MDTとAIはそれぞれ高い評価者間信頼性を示したものの、両者の一致度はCohen's kappaでκ=0.267〜0.341と低調だった。また、ChatGPT-5が3回の全クエリで完全に一貫した回答を示したのは全体の38%(37/97)に過ぎなかった。

サブグループ分析の結果、AIは早期段階の疾患では良好な性能を示した(p=0.024)が、複雑なシナリオには対応が困難であった。特に妊孕性温存のアプローチ(p=0.045)、遺伝子検査(p=0.019)、最新の治療法(p=0.012)の推奨においてモデルの性能低下が顕著であった。著者は、臨床的な安全性を担保するためには人間の専門知識が不可欠であり、現時点ではモデルに独立した判断を委ねるほどの信頼性はないと結論付けている。

2026年6月1日にJournal of Clinical Oncology誌で発表された研究において、婦人科腫瘍学における臨床意思決定支援ツールとしてのChatGPT-5の性能が評価された。研究チームは卵巣がん34例、子宮内膜がん41例、子宮頸がん16例、希少腫瘍6例を含む計97件の症例を分析し、チュクロヴァ大学の集学的腫瘍ボード(MDT)の推奨事項とAIの回答を比較した。各症例は標準化された臨床サマリーを用いて処理され、モデルに対する3回にわたるクエリによって再現性が検証された。

2名の腫瘍専門医による評価では、ChatGPT-5の平均パフォーマンススコアは89.8%〜90.1%であり、MDTの93.8%〜94.2%と比較して有意差が認められた(p<0.001)。MDTとAIはそれぞれ高い評価者間信頼性を示したものの、両者の一致度はCohen's kappaでκ=0.267〜0.341と低調だった。また、ChatGPT-5が3回の全クエリで完全に一貫した回答を示したのは全体の38%(37/97)に過ぎなかった。

サブグループ分析の結果、AIは早期段階の疾患では良好な性能を示した(p=0.024)が、複雑なシナリオには対応が困難であった。特に妊孕性温存のアプローチ(p=0.045)、遺伝子検査(p=0.019)、最新の治療法(p=0.012)の推奨においてモデルの性能低下が顕著であった。著者は、臨床的な安全性を担保するためには人間の専門知識が不可欠であり、現時点ではモデルに独立した判断を委ねるほどの信頼性はないと結論付けている。

原文(英語)を読む·2026年6月1日
#chatgpt 5#oncology#clinical trials#healthcare ai#decision support