图片

《基础模型中的医疗幻觉及其对医疗的影响》一文聚焦于基础模型(如大语言模型和大视觉语言模型)在医疗领域的应用及其核心挑战——医疗幻觉。该文系统性地探讨了医疗幻觉的定义、分类、成因及其对临床决策和患者安全的潜在威胁,通过实验分析、临床案例标注和医生调查,提出了缓解策略,为人工智能在医疗领域的安全部署提供了重要参考。

 

医疗幻觉是指在模型预测或生成的结果中,出现与真实医疗情况不符、无法解释或误导性的信息。当基础模型在医疗领域应用时,医疗幻觉可能导致误诊、误治等严重后果,对患者的健康和安全构成威胁。

 

图片

本文首先对医疗幻觉进行了细致的分类,建立了一个全面的分类体系。该分类体系将医疗幻觉分为五大类:事实性错误(包括非事实性幻觉、事实性幻觉和输入冲突性幻觉)、过时引用(例如基于记忆的幻觉)、虚假关联(包括偏差诱导性幻觉、融合性幻觉和多模态整合幻觉)、虚构来源或指南(包括程序性幻觉和研究性幻觉)以及不完整的推理链(包括推理性幻觉、决策性幻觉和诊断性幻觉)。本文通过具体的案例分析,详细阐述了每种类型的医疗幻觉的特征、成因和潜在后果,并将其与临床医生的认知偏差进行了比较,指出两者虽然在结果上相似,但根源却截然不同:认知偏差源于人认知的局限性,而大语言模型的医疗幻觉则源于训练数据中的统计关联和模型本身的局限性。

 

图片

文章接下来深入探讨了医疗幻觉的成因,将其归纳为数据相关因素、模型相关因素以及医疗领域特有的挑战三个方面。数据相关因素包括数据质量和噪声、数据多样性和代表性以及训练数据的规模和范围。模型相关因素则包括模型的过度自信和校准问题、模型泛化能力的不足以及模型缺乏医学推理能力。医疗领域特有的挑战则包括临床语言的模糊性、医学知识的快速发展以及医疗数据的复杂性和异质性。

 

为了有效地检测和评估医疗幻觉,本文提出了一个系统性的框架,该框架包含多种测量方法,分别针对不同医疗应用场景中的幻觉检测和评估。这些方法包括事实准确性评估、一致性分析、上下文相关性评估、不确定性量化以及跨模态验证。本文也指出了医疗幻觉检测中面临的挑战,例如医疗幻觉定义的模糊性、缺乏可靠的真实数据以及语义等价性在检测中的作用等。

 

图片

文章还探讨了多种缓解医疗幻觉的策略,这些策略可以大致分为数据中心方法、模型中心方法以及外部知识整合技术三类。数据中心方法侧重于改进数据质量和数据收集,例如提高训练数据的质量、增加训练数据的多样性和规模等。模型中心方法则侧重于改进模型本身,例如采用先进的训练方法、进行模型知识编辑以及使用批判性模型等。外部知识整合技术则侧重于将外部知识整合到模型中,例如检索增强生成和医学知识图谱等。本文对这些方法的有效性进行了实验评估,结果表明,诸如思维链提示和互联网搜索等技术可以有效地降低幻觉率,但即使经过改进,仍然存在非微不足道的幻觉问题。实验还比较了通用型大语言模型和医疗专用型大语言模型在医疗幻觉方面的表现,结果表明,先进的通用型大语言模型在处理复杂的医疗任务方面表现出更高的可靠性。

 

图片

此外,文章还通过对真实临床病例记录进行专家标注,定量分析了不同大语言模型在不同医疗任务中的幻觉率和临床风险等级,并对不同模型的性能进行了比较。结果显示,不同模型在不同任务上的表现存在显著差异,一些模型在某些任务上的幻觉率和临床风险等级较高,而另一些模型则表现出较高的可靠性。本文还进行了一项多国临床医生的调查,了解临床医生对人工智能/大语言模型工具的采用情况、对医疗幻觉的看法和经验以及对未来人工智能/大语言模型工具发展的期望。调查结果显示,人工智能/大语言模型工具在医疗和研究领域得到了广泛应用,但临床医生也普遍意识到了医疗幻觉的风险,并采取了各种措施来应对。

 

图片

最后,文章讨论了人工智能医疗幻觉的监管和法律问题,强调了建立伦理准则和健全框架以确保患者安全和问责制的重要性。本文指出,现有的法律框架在处理人工智能系统导致的不良患者预后方面存在不足,需要进一步完善。文章呼吁加强对人工智能医疗幻觉的研究,开发更有效的检测和缓解策略,并建立更完善的监管和法律框架,以确保人工智能技术能够安全、有效地应用于医疗领域。总而言之,该文为理解和应对基础模型中的医疗幻觉提供了宝贵的见解,为人工智能在医疗领域的负责任应用奠定了基础。