《可重复的医疗生成式人工智能评估:一种临床医生参与的方法》2025年3月24日本文旨在开发和应用一种可重复的方法,以评估医疗领域大语言模型驱动的临床问答系统的性能。该研究填补了理论评估框架与实际实施指导之间的空白,为医疗中生成式人工智能工具的评价提供了一个全面的框架。为在临床环境中安全有效地部署生成式人工智能提供了实践指导。背景与意义随着生成式人工智能系统在医疗领域的广泛应用,包括临床决策支持、行政管理任务、医学教育和医学研究等多个方面,其带来的潜在风险也日益凸显。尽管生成式人工智能技术具有诸多优势,但在医疗中的应用仍需谨慎,因为任何错误都可能对患者的健康和安全造成严重影响。因此,建立稳健的评估方法对于量化临床使用中的潜在风险至关重要。目前,医疗生成式人工智能系统的评估方法在方法论和严谨性上存在很大差异。传统的文本比较指标和统计方法虽然能够评估生成的文本与参考文本之间的相似度,但无法准确判断生成的回答是否在临床上准确或有用。这促使人们广泛采用人工评估方法,通过人类评价者来评估临床适用性。然而,人工评估也存在主观性和可变性等问题,因此需要一种更加标准化和可重复的评估框架。评估框架本文基于现有文献中的评估方法,构建了一个多维度的评估框架,用于评估医疗保健设置中的临床问答系统。该框架围绕五个核心维度展开,这些维度反映了临床决策点的优先级:●有用性:评估生成的回答是否对临床问题提供了有用的信息。●理解度:判断生成的回答是否准确理解了临床问题的意图。●正确性:评估生成的回答在医学上的准确性。●完整性:检查生成的回答是否涵盖了临床问题的所有相关方面。●潜在危害性:识别生成的回答中可能对患者健康和安全造成威胁的内容。研究方法为了实施这一评估框架,研究团队采用了以下步骤:●查询集创建:从多个来源收集并筛选了633个与临床相关的查询,涵盖了不同的医学专业和领域。●专家评估:邀请了具有专业医学知识的临床专家对生成的回答进行评分,以确保评估的准确性和可靠性。●数据分析:使用标准化指标对专家评分进行统计分析,以量化生成式人工智能系统的性能。研究结果研究结果显示,通过该评估框架,可以系统地评估生成式人工智能系统在医疗领域的性能。研究还发现,尽管生成式人工智能系统在某些方面表现出色,但在其他方面仍存在不足,特别是在正确性和完整性方面。此外,研究还强调了潜在危害性评估的重要性,以确保生成的回答不会对患者造成危害。结论与展望本文提出的临床医生参与的评估框架为医疗领域生成式人工智能工具的评价提供了一个全面的方法。通过结合稳健的人工评估协议和标准化指标,该框架有助于确保生成式人工智能工具在医疗中的安全性和有效性。未来,研究团队将继续完善这一评估框架,并探索更多互补的评价方法,以提高临床生成式人工智能评估的可靠性和可扩展性。同时,他们也希望与其他研究人员和机构合作,共同推动生成式人工智能在医疗领域的健康发展。综上所述,本文为医疗保健领域生成式人工智能工具的评价提供了一个重要的参考框架,有助于确保这些工具在临床实践中的安全性和有效性。随着技术的不断进步和评估方法的不断完善,我们有理由相信生成式人工智能将在医疗领域发挥越来越重要的作用。如需要《可重复的医疗生成式人工智能评估:一种临床医生参与的方法》(英文,共19页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。★ 每日鲜鸡汤 ★There is rush in crush. 迷恋突至,难以自持。早上好!