图片

202211OpenAIChatGPT首次公开发布以来,生成式人工智能在医学与医疗保健领域的应用经历了迅速的发展与变化。20247月,著名的新兴技术成熟度曲线方法论的提出者高德纳公司(Gartner)在一项新的研究报告中宣布,生成式人工智能已度过 “期望膨胀期”,正步入“幻灭低谷期”。这表明,尽管该技术初期受到高度期待,但目前正面临实际应用的挑战与局限,预示着其进入了一个更为现实和成熟的发展阶段。

 

本文首先回顾了大语言模型在医学领域的进步,包括检索增强生成技术和提示语工程的整合及其在提高诊断准确性和教育效用方面的应用。它强调了大语言模型的巨大潜力,但也指出了其局限性,例如偏差、幻觉以及对稳健安全协议的需求。幻觉指的是模型生成看似合理但实际上不准确或无意义的信息,这在医疗领域尤其危险,因为错误的信息可能导致误诊和不当治疗。文章特别提到了奥杰门等人开发的医学人工智能聊天机器人参考幻觉评分,突显了准确检测和减轻幻觉以确保这些工具在临床环境中的可靠性和安全性的重要性。

 

图片

文章进一步讨论了将这些模型整合到医疗保健实践中所需的监管和伦理考虑。目前,尽管一些临床医生已经开始使用这些工具,但由于缺乏监管机构(如FDAMHRAEMA)的批准,以及大语言模型固有的局限性(例如不一致、不可预测和随机性能以及容易产生偏差),这种过早采用令人担忧。文章强调,在关键医疗环境中不受监管地使用这些模型可能导致危险的疏忽或错误,例如错过患者的药物过敏症。因此,医学界越来越呼吁制定严格的法规来规范人工智能在医疗保健中的使用,以防止由人工智能造成的医疗差错。

 

文章还简要介绍了自然语言处理(NLP)在医疗保健中的基础概念、进展和应用,重点介绍了生成式预训练转换模型及其相关技术的影响。它追踪了转换模型的快速发展,以及其他通用模型(如Llama 2LangChainClaudeMistral)的出现。文章还讨论了多模态内容生成、提示语工程和检索增强生成等技术的整合,以及这些技术如何增强大语言模型的能力,并解决诸如幻觉等问题。温度计方法等新技术的出现,通过持续评估不同预测中的置信度水平来降低人工智能模型对不正确答案的过度自信,也为提高大语言模型的可靠性和安全性提供了新的途径。

 

图片

文章的第三部分重点探讨了生成式人工智能和大语言模型在医学中的应用和影响。它强调了生成式人工智能在医疗保健中的变革潜力,包括简化临床任务、提高诊断准确性以及提供健康见解和辅助疾病预测。然而,文章也再次强调了大语言模型的局限性,包括输出质量的可变性、偏差、伦理问题以及对稳健监管框架的需求。

 

本文深入探讨了与在临床环境和公众健康中实施生成式人工智能相关的监管、伦理和实践挑战。它分析了多个研究,这些研究表明生成式人工智能无法可靠地从非结构化临床记录中提取和总结信息,并指出了一些机构(如澳大利亚皇家全科医师学院和澳大利亚医疗卫生从业人员监管机构)为此目的发布的指南。这些指南强调了临床医生对患者健康记录中错误的责任,即使这些错误是由人工智能书记员生成的,以及获得患者同意使用人工智能书记员进行咨询的必要性。

 

图片

文章还详细讨论了关于生成式人工智能在医疗保健中的监管框架、伦理问题和偏差的各种观点。它提及了古德曼等人关于大语言模型生成的摘要的潜力和局限性的研究,以及白若等人关于在公众健康中负责任地实施人工智能的伦理考虑和稳健监管框架的呼吁。文章还探讨了人工智能作为医疗器械(AIaMD)的监管现状,以及对现有监管框架适用性的质疑。它进一步讨论了更新监管框架的必要性,这些框架最初是针对早期几代人工智能而优化的,并提及了豪威尔等人提出的人工智能的三个时代(AI 1.0、AI 2.0和AI 3.0)的概念。

 

文章还深入分析了欧盟人工智能法案对医疗保健中人工智能应用的影响,以及其对现有医疗器械法规和人工智能法案具体要求的协调。它还讨论了对生成式人工智能评估方法的转变,从上市前评估转向现实世界上市后监测,以及科艾瑞和弗赖莱-纳瓦罗提出的将生成式人工智能视为网络社交生态系统而非特定技术的观点。

 

图片

文章还提及了生成式人工智能在个性化医学方面的潜力与挑战,指出当前监管框架实际上是人工智能基于个性化医学的事实上的阻碍,并呼吁制定能够认可生成式人工智能应用能力与局限性、同时执行现有规定的新监管思维。联合国教科文组织在20248月发布的《AI监管咨询文件——世界各地的新兴方法》中,描述了九种非互斥的监管方法,这些方法在各国当前的医疗人工智能监管框架(无论是现在还是未来)中通常会结合使用。

 

在医学领域,有效的提示语工程(Prompt Engineering)对于优化生成式人工智能模型的性能至关重要。它涉及设计和精炼输入提示,以激发模型提供最准确和相关的应答。有效的提示语工程可以显著提升人工智能系统在医疗保健环境中的可用性和可靠性。然而,即便如此,生成式人工智能仍面临诸如对自然语言处理能力的局限(如基于标注化的文本处理方式导致的输出异常和限制)等挑战。

 

图片

尽管存在诸多挑战,生成式人工智能和大语言模型在提升临床诊断决策、准确性及减轻医生工作负担方面的潜力不容忽视。未来的进步将依赖于持续的技术创新、更严格的监管框架、利益相关各方的协作以及人类对人工智能输出的审慎判断。随着我们超越生成式人工智能在医学与医疗保健领域的“期望膨胀期”,仍需不断努力以确保其安全地用于主流临床实践,并最终达到其生产力高原期(成熟期)”。

 

总之,生成式人工智能和大语言模型在医学与医疗保健领域的应用正处于快速发展但充满挑战的阶段。尽管它们具有巨大的潜力,但只有在解决了可靠性、安全性、伦理和监管问题后,才能充分发挥其潜力,为患者带来真正的益处。