《可解释的人工智能与大语言模型:让机器学习模型和大型语言模型协同工作,增强医疗中的情景学习》
2024年12月9日
![图片]()
《可解释的人工智能与大语言模型:让机器学习模型和大型语言模型协同工作,增强医疗中的情景学习》一文,探讨了将大型语言模型(LLMs)整合到医疗诊断中以辅助临床决策的可能性。研究人员提出了一种新颖的零样本/少样本情境学习方法,该方法通过使用多层结构化提示整合医学领域知识。他们比较了两种用户与大语言模型之间的沟通方式:“数值对话”风格,它增量式地处理数据;以及“自然语言单轮”风格,它使用长篇叙述性提示。
本研究使用包含920份患者病历的数据集,在多种少样本场景下系统地评估了诊断准确性和风险因素,包括性别偏差和假阴性率。结果表明,在零样本和少样本设置中,传统的临床机器学习模型通常优于大语言模型。然而,当采用少样本示例以及可解释人工智能(XAI)方法作为领域知识来源时,性能差距显著缩小。此外,在有足够时间和更多示例的情况下,“数值对话”风格的性能几乎与机器学习模型相当。最值得注意的是,相对于机器学习模型,大语言模型在成本敏感的准确性方面表现出相当或更好的性能。
![图片]()
这项研究证实,通过适当的领域知识和量身定制的沟通策略,大语言模型可以显著优化诊断过程。研究结果强调了优化训练示例数量和沟通风格以提高准确性并减少大语言模型应用中偏差的重要性。
本文的核心贡献在于两个方面:首先,它提出了一种系统化的结构化提示语构建方法。该方法设计了一个“多层结构化模板”,旨在无缝整合与临床任务相关的多个要素,最重要的是将医学领域知识整合到基于大语言模型的决策系统中。该模板处理两种类型的用户资料表示:数值型和自然语言型;并通过从训练好的机器学习模型中获取特征级别的解释来添加领域知识,这模拟了从医生或医学文献中获得的见解。
![图片]()
其次,本文优化了大语言模型诊断中的沟通风格和用户资料构建。它识别出两种沟通风格:(1)“数值对话”风格,采用多轮交互,使用数值数据来模拟临床医生与患者对话的动态、增量性质;(2)“自然语言单轮”风格,将所有患者信息整合到一个全面的叙述中,类似于临床医生在诊断前审查完整的病历。这两种风格的对比突出了系统化的结构化提示语构建能力,能够调整患者数据的呈现方式,以优化基于大语言模型的诊断准确性。
本文还深入探讨了将大语言模型整合到医疗保健决策中的挑战。这些挑战包括:(1)通过整合医学背景知识来丰富通用大语言模型的特定任务能力;(2)弥合数值数据集和大语言模型的自然语言处理能力之间的差距;(3)确定用户与系统之间最佳的沟通风格,以从大语言模型获得更好或更精确的应答;(4)评估不同推理模式(例如,直接请求与思维链)对诊断清晰度的影响;(5)评估大语言模型在临床决策中的作用,不仅要提高准确性,还要揭示相关的风险,例如假阴性和偏差。
![图片]()
本文还回顾了生成式模型和大语言模型的相关工作,将生成式模型分为直接训练模型和预训练生成式模型,并详细阐述了大语言模型在医疗保健领域的应用,包括医疗评估、医学问答、科学写作、电子医疗保健和患者分类等。 它还回顾了大语言模型在自动化医疗诊断中的应用,包括纠正医生诊断过程中的错误、用户信念和提示语制定对健康诊断的影响、大语言模型应用中的个性化以及“思维链”推理在医学问答中的作用。![图片]()
总之,该文通过提出一种创新的多层结构化提示方法,并通过比较两种不同的沟通风格,成功地探索了将大语言模型应用于医疗诊断的潜力。研究结果表明,结合适当的领域知识和有效的沟通策略,大语言模型可以显著提高诊断准确性,并与传统的机器学习模型相媲美,甚至在某些方面表现更优。这项研究为大语言模型在医疗保健领域的应用提供了宝贵的见解,并为未来的研究方向指明了道路。