AI 비교하기AI 교차검증AI 최신정보AI 커뮤니티
私たちのビジョン利用規約個人情報保護方針FAQお問い合わせ

肝臓病相談AI「LiVersa」の精度調査

肝臓病相談AI「LiVersa」の精度調査

Semantic Scholar
2026年6月26日 (金)
  • •UCSFの研究チームが2025年1月から3月にかけて、肝臓病のeコンサルテーション支援用に設計されたLLM「LiVersa」を評価した。
  • •人間の専門家による評価では、83%の回答案が適切と判断された一方、3.4%に深刻な有害リスクが認められた。
  • •OpenAI-o1を用いた「LLM-as-a-judge」手法では、人間よりも厳しい判定が下され、潜在的な有害性がより多く特定された。
  • •UCSFの研究チームが2025年1月から3月にかけて、肝臓病のeコンサルテーション支援用に設計されたLLM「LiVersa」を評価した。
  • •人間の専門家による評価では、83%の回答案が適切と判断された一方、3.4%に深刻な有害リスクが認められた。
  • •OpenAI-o1を用いた「LLM-as-a-judge」手法では、人間よりも厳しい判定が下され、潜在的な有害性がより多く特定された。

カリフォルニア大学サンフランシスコ校(UCSF)の研究チームは、2025年1月から3月にかけて、肝臓病の電子コンサルテーション(eコンサル)支援用に構築されたLLMである「LiVersa」の性能を検証した。分析対象となったeコンサル件数は61件で、内訳は肝機能検査の異常が34%、B型肝炎が23%、画像診断の異常が21%を占めた。

LiVersaが生成した回答案は、人間が作成した回答と統計的に類似していた。回答の平均単語数はLiVersaが284語、人間が264語(p=0.47)、文の長さはそれぞれ24語と25語(p=0.44)だった。人間の専門家による評価では、83%の回答案が症例に応じた適切な提案を含み、72%が臨床上の判断の出発点として妥当であるとされた。しかし、10%には誤解を招く情報が含まれており、3.4%には深刻な危害を及ぼすリスクが存在した。

研究では、人間による評価と「LLM-as-a-judge」としてOpenAI-o1を用いた評価の比較も行った。人間の専門家が両者を臨床的に等価と評価したのは48%であったのに対し、モデルベースの評価者はより保守的な判定を下し、等価と認めたのは27%にとどまり、67%を潜在的に有害と分類した。評価手法間の差異にもかかわらず、精度指標において両者はTOST(同等性検定)で統計的な合意(p<0.05)を示した。これらの結果は、LLMが臨床回答の作成において有用性を持つ一方で、実施の過程で人間による監視が不可欠であることを示唆している。

カリフォルニア大学サンフランシスコ校(UCSF)の研究チームは、2025年1月から3月にかけて、肝臓病の電子コンサルテーション(eコンサル)支援用に構築されたLLMである「LiVersa」の性能を検証した。分析対象となったeコンサル件数は61件で、内訳は肝機能検査の異常が34%、B型肝炎が23%、画像診断の異常が21%を占めた。

LiVersaが生成した回答案は、人間が作成した回答と統計的に類似していた。回答の平均単語数はLiVersaが284語、人間が264語(p=0.47)、文の長さはそれぞれ24語と25語(p=0.44)だった。人間の専門家による評価では、83%の回答案が症例に応じた適切な提案を含み、72%が臨床上の判断の出発点として妥当であるとされた。しかし、10%には誤解を招く情報が含まれており、3.4%には深刻な危害を及ぼすリスクが存在した。

研究では、人間による評価と「LLM-as-a-judge」としてOpenAI-o1を用いた評価の比較も行った。人間の専門家が両者を臨床的に等価と評価したのは48%であったのに対し、モデルベースの評価者はより保守的な判定を下し、等価と認めたのは27%にとどまり、67%を潜在的に有害と分類した。評価手法間の差異にもかかわらず、精度指標において両者はTOST(同等性検定)で統計的な合意(p<0.05)を示した。これらの結果は、LLMが臨床回答の作成において有用性を持つ一方で、実施の過程で人間による監視が不可欠であることを示唆している。

原文(英語)を読む·2026年6月19日
#liversa#hepatology#e consult#healthcare ai#clinical llm#openai o1#quality assurance