この記事の要点は？

UCSFの研究チームが2025年1月から3月にかけて、肝臓病のeコンサルテーション支援用に設計されたLLM「LiVersa」を評価した。人間の専門家による評価では、83%の回答案が適切と判断された一方、3.4%に深刻な有害リスクが認められた。 OpenAI-o1を用いた「LLM-as-a-judge」手法では、人間よりも厳しい判定が下され、潜在的な有害性がより多く特定された。

肝臓病相談AI「LiVersa」の精度調査

Semantic Scholar

2026年6月26日 (金)

•UCSFの研究チームが2025年1月から3月にかけて、肝臓病のeコンサルテーション支援用に設計されたLLM「LiVersa」を評価した。
•人間の専門家による評価では、83%の回答案が適切と判断された一方、3.4%に深刻な有害リスクが認められた。
•OpenAI-o1を用いた「LLM-as-a-judge」手法では、人間よりも厳しい判定が下され、潜在的な有害性がより多く特定された。

•UCSFの研究チームが2025年1月から3月にかけて、肝臓病のeコンサルテーション支援用に設計されたLLM「LiVersa」を評価した。
•人間の専門家による評価では、83%の回答案が適切と判断された一方、3.4%に深刻な有害リスクが認められた。
•OpenAI-o1を用いた「LLM-as-a-judge」手法では、人間よりも厳しい判定が下され、潜在的な有害性がより多く特定された。

カリフォルニア大学サンフランシスコ校（UCSF）の研究チームは、2025年1月から3月にかけて、肝臓病の電子コンサルテーション（eコンサル）支援用に構築されたLLMである「LiVersa」の性能を検証した。分析対象となったeコンサル件数は61件で、内訳は肝機能検査の異常が34%、B型肝炎が23%、画像診断の異常が21%を占めた。

LiVersaが生成した回答案は、人間が作成した回答と統計的に類似していた。回答の平均単語数はLiVersaが284語、人間が264語（p=0.47）、文の長さはそれぞれ24語と25語（p=0.44）だった。人間の専門家による評価では、83%の回答案が症例に応じた適切な提案を含み、72%が臨床上の判断の出発点として妥当であるとされた。しかし、10%には誤解を招く情報が含まれており、3.4%には深刻な危害を及ぼすリスクが存在した。

研究では、人間による評価と「LLM-as-a-judge」としてOpenAI-o1を用いた評価の比較も行った。人間の専門家が両者を臨床的に等価と評価したのは48%であったのに対し、モデルベースの評価者はより保守的な判定を下し、等価と認めたのは27%にとどまり、67%を潜在的に有害と分類した。評価手法間の差異にもかかわらず、精度指標において両者はTOST（同等性検定）で統計的な合意（p<0.05）を示した。これらの結果は、LLMが臨床回答の作成において有用性を持つ一方で、実施の過程で人間による監視が不可欠であることを示唆している。

原文(英語)を読む·2026年6月19日

#liversa #hepatology #e consult #healthcare ai #clinical llm #openai o1 #quality assurance

肝臓病相談AI「LiVersa」の精度調査

Semantic Scholar

2026年6月26日 (金)

•UCSFの研究チームが2025年1月から3月にかけて、肝臓病のeコンサルテーション支援用に設計されたLLM「LiVersa」を評価した。
•人間の専門家による評価では、83%の回答案が適切と判断された一方、3.4%に深刻な有害リスクが認められた。
•OpenAI-o1を用いた「LLM-as-a-judge」手法では、人間よりも厳しい判定が下され、潜在的な有害性がより多く特定された。

•UCSFの研究チームが2025年1月から3月にかけて、肝臓病のeコンサルテーション支援用に設計されたLLM「LiVersa」を評価した。
•人間の専門家による評価では、83%の回答案が適切と判断された一方、3.4%に深刻な有害リスクが認められた。
•OpenAI-o1を用いた「LLM-as-a-judge」手法では、人間よりも厳しい判定が下され、潜在的な有害性がより多く特定された。

原文(英語)を読む·2026年6月19日

#liversa #hepatology #e consult #healthcare ai #clinical llm #openai o1 #quality assurance