图片

随着人工智能技术的迅速发展,大语言模型在医疗领域的应用潜力引起了广泛关注。然而,现有的研究大多聚焦于静态任务,例如从文本描述中生成诊断或对医学影像进行解读,缺乏对动态、多模态、时序性临床决策过程的系统评估。为填补这一空白,来自宾夕法尼亚大学的研究人员开展了一项创新性研究,首次将多模态大语言模型置于高保真度的医学模拟环境中,测试其在动态临床决策中的表现,并与医学生和急诊科专家的行为进行对比。

本研究以临床决策的动态信息收集为核心理论框架,将诊断过程建模为一个部分可观测的马尔可夫决策过程。在这一框架下,决策者无法直接观察到患者的真实状态,而只能通过一系列行动(如询问病史、体格检查、实验室检查、影像学检查等)不断获取新的信息,并据此更新对病情的判断,最终做出治疗决策。研究者在“身体互动”这一虚拟患者模拟平台中选取了四个典型病例,包括一个低血糖居家护理病例和三个急诊病例(肺炎、缺血性中风、充血性心力衰竭),每个病例都设有时间限制(20分钟),并要求决策者在多模态信息(文本、图像、音频)中做出判断和操作。

图片

为实现对AI的自动化控制,研究者构建了一个基于谷歌Gemini Pro 2.5的多模态AI智能体。该智能体通过截图、音频和视频感知模拟环境中的患者状态,并通过一个操控层直接调用用户界面中的按钮操作,从而实现对模拟病例的端到端控制。为了全面评估AI的表现,研究者收集了超过14,000次医学生模拟运行数据,并邀请一位急诊科专家作为金标准,分别对AI、学生和专家在病例完成率、完成时间、诊断准确性、医患沟通频率、检查费用等多个维度进行对比分析。

研究共分为四个子研究。研究一以低血糖病例为切入点,验证AI是否能够自主完成模拟任务。结果显示,AI60次独立运行中均成功稳定患者,诊断准确率达97%,平均完成时间177秒,显著低于医学生的285秒。研究二将AI应用于更复杂的肺炎病例,结果显示AI的完成率为88.3%,高于医学生的77.8%;完成时间为443秒,远低于医学生的620秒。然而,AI在诊断准确性上表现较差,仅55%的运行正确诊断为肺炎,许多情况下AI倾向于将肺炎继发的脓毒症作为主要诊断,显示出其在复杂病例中的诊断偏好。

图片

研究三进一步扩展至三个急诊病例的综合分析,并引入医患沟通频率和检查费用两个新指标。结果显示,AI的整体完成率为95%,显著高于医学生的89.3%;完成时间也大幅缩短。但在医患沟通方面,AI仅完成了22.15%的推荐沟通动作,远低于医学生的61.88%。此外,AI的检查费用平均为608美元,显著高于专家的346美元,表明AI在信息收集方面仍存在过度依赖测试的倾向。研究者还通过杰卡德相似度莱文斯坦距离分析AI的行为一致性,发现AI在不同运行中采取的行动集合高度重叠,但行动顺序存在显著差异,说明其具有一定的策略灵活性。

研究四则深入探讨了AI的推理过程。通过在每一轮行动前记录AI对四种可能诊断的概率分布,研究者分析了其信念更新的动态特征。结果显示,AI在早期步骤中采取的测试往往带来较大的信念变化,而随着诊断进程推进,信念更新的幅度逐渐减小,呈现出信息价值递减的特征。同时,AI的置信度与实际诊断准确性之间具有良好的校准关系:当AI对某一诊断的置信度超过80%时,其准确率达100%;而当置信度低于40%时,准确率仅为45.8%。这表明AI在一定程度上具备知道自己在何时不确定的能力,这一特性对于临床部署中的人机协作至关重要。

图片

综合来看,本研究具有以下几方面的理论贡献与实践意义。首先,它首次证明了一个未经过专门优化的通用多模态大语言模型能够在高保真度模拟环境中自主完成复杂的临床诊断流程,表现出与人类专家相近甚至超越医学生的能力。其次,研究揭示了AI与人类在临床决策风格上的差异:AI倾向于快速、高效地执行关键操作,但在医患沟通和成本控制方面仍有不足;而人类医生则更注重信息全面性和患者互动,体现出更高的沟通成本和时间投入。第三,研究通过信念追踪方法,首次展示了AI在动态诊断中表现出的信息价值导向行为和良好的置信度校准能力,为未来AI在临床中作为第二双眼实时审核者提供了理论支持。

然而,本研究也存在若干局限性。首先,所有实验均在虚拟环境中进行,无法完全模拟真实临床中的不确定性和伦理复杂性。其次,人类对照组主要为医学生,专家样本仅一人,难以代表真实临床实践的多样性。此外,AI的操作依赖于一个简化的操控层,避开了真实系统中界面导航的复杂性,可能低估了其在真实环境中的操作难度。最后,尽管研究揭示了AI的信念更新特征,但并未对医学生的信念状态进行追踪,无法直接比较两者的推理过程。

图片

尽管如此,本研究仍为未来AI在医疗操作层面的应用提供了重要的实证基础。研究人员指出,AI在动态、多模态、时序性决策任务中的表现表明,其不仅可以作为任务执行者,更可以成为流程协调者。在资源匮乏、时间紧迫的场景中,AI可以作为快速分诊工具或远程指导系统,辅助非专业人员进行初步处理。而在常规医疗中,AI则可作为实时审核者,提供第二意见,提升诊断安全性和效率。

总之,本研究不仅在方法论上开创了AI动态临床决策评估的新范式,也在理论上深化了对AI推理过程的理解,为未来人机协作的临床系统设计提供了重要启示。

如需要《评估大语言模型在动态、多模态临床决策中的应用》(英文,共41页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。

图片

图片

图片


★ 每日鲜鸡汤  ★

Never take criticism from someone you wouldn't take advice from. 其心既不可师,其语何足挂怀?早上好!早上好!

图片