この記事の要点は？

臨床薬学のタスクにおけるLLMとプロンプトエンジニアリングの性能を評価する研究が行われた。 OpenEvidenceはすべての試験条件においてChatGPT 4oよりも有意に高い参考文献の妥当性を示した（p < 0.001）。ドメイン特化型のRAGモデルやプロンプトテンプレートは、回答の全体的な正確性と完全性を有意に向上させなかった。

臨床薬学におけるLLMの精度評価

•臨床薬学のタスクにおけるLLMとプロンプトエンジニアリングの性能を評価する研究が行われた。
•OpenEvidenceはすべての試験条件においてChatGPT 4oよりも有意に高い参考文献の妥当性を示した（p < 0.001）。
•ドメイン特化型のRAGモデルやプロンプトテンプレートは、回答の全体的な正確性と完全性を有意に向上させなかった。

•臨床薬学のタスクにおけるLLMとプロンプトエンジニアリングの性能を評価する研究が行われた。
•OpenEvidenceはすべての試験条件においてChatGPT 4oよりも有意に高い参考文献の妥当性を示した（p < 0.001）。
•ドメイン特化型のRAGモデルやプロンプトテンプレートは、回答の全体的な正確性と完全性を有意に向上させなかった。

研究チームは、内科臨床薬学におけるLLMとプロンプトエンジニアリングの有効性を評価するため、単一施設での前向き研究を実施し、2026年6月21日に米国臨床薬学大学（Journal of the American College of Clinical Pharmacy）誌で発表した。臨床薬学の専門家がテスト用に50の症例問題を作成した。実験は2x2の要因計画を用い、汎用モデルのChatGPT 4oと、検索拡張生成（RAG）を搭載した医療特化型システムを比較した。

さらに、出力結果を精緻化するための構造化されたプロンプトテンプレートの使用が与える影響も評価した。主要評価項目は、回答の正確性と完全性を複合的に測定したものであり、2名の薬剤師が採点を行い、3人目がその結果の整合性を確認した。結果として、主要評価項目においてモデルの選択とプロンプトテンプレートの使用間に統計学的に有意な相互作用は認められなかった。

正確性と完全性の基準を満たす予測確率は、テンプレートなしのGPTが0.54、テンプレートありのGPTが0.60、テンプレートなしのOpenEvidenceが0.64、テンプレートありのOpenEvidenceが0.52であった。しかし、OpenEvidenceはすべての条件下でChatGPT 4oと比較して、参考文献の妥当性が有意に高かった（p < 0.001）。これらの手法は全体的な正確性や完全性を改善しなかったものの、研究者はドメイン特化型システムが引用の信頼性の高さにおいて将来性を示していると示唆している。なお、本研究はメリーランド大学ボルチモア校のIRB（プロトコルHP-00112497）の下で実施された。

研究チームは、内科臨床薬学におけるLLMとプロンプトエンジニアリングの有効性を評価するため、単一施設での前向き研究を実施し、2026年6月21日に米国臨床薬学大学（Journal of the American College of Clinical Pharmacy）誌で発表した。臨床薬学の専門家がテスト用に50の症例問題を作成した。実験は2x2の要因計画を用い、汎用モデルのChatGPT 4oと、検索拡張生成（RAG）を搭載した医療特化型システムを比較した。

さらに、出力結果を精緻化するための構造化されたプロンプトテンプレートの使用が与える影響も評価した。主要評価項目は、回答の正確性と完全性を複合的に測定したものであり、2名の薬剤師が採点を行い、3人目がその結果の整合性を確認した。結果として、主要評価項目においてモデルの選択とプロンプトテンプレートの使用間に統計学的に有意な相互作用は認められなかった。

正確性と完全性の基準を満たす予測確率は、テンプレートなしのGPTが0.54、テンプレートありのGPTが0.60、テンプレートなしのOpenEvidenceが0.64、テンプレートありのOpenEvidenceが0.52であった。しかし、OpenEvidenceはすべての条件下でChatGPT 4oと比較して、参考文献の妥当性が有意に高かった（p < 0.001）。これらの手法は全体的な正確性や完全性を改善しなかったものの、研究者はドメイン特化型システムが引用の信頼性の高さにおいて将来性を示していると示唆している。なお、本研究はメリーランド大学ボルチモア校のIRB（プロトコルHP-00112497）の下で実施された。