图片

近年来,人工智能在医疗领域的应用取得了显著进展,尤其是大语言模型在提升医疗决策过程中的作用日益凸显。临床推理是一个复杂且迭代的过程,涉及对患者数据的持续解释与综合、新信息的吸收、鉴别诊断的生成以及有效治疗计划的制定。尽管现有的大语言模型临床决策支持系统在辅助诊断和治疗过程中表现出色,但在实际临床环境中,这些模型仍面临诸多挑战,如性能波动、领域知识不足以及黑箱推理过程等。这些问题限制了医生对这些系统的信任,进而影响了其在医疗实践中的应用。

本研究旨在通过引入一种名为“医疗决策-容斥问题”的新型框架,解决当前医疗决策和推理中的局限性。医疗决策-容斥问题框架通过动态、多智能体协作的方法,模拟医学推理和决策中的认知与推理能力。研究团队将医疗决策-容斥问题与当前最先进的大语言模型(包括OpenAIo1Gemini 2.0 Flash ThinkingDeepSeek V3)进行了定量和定性的基准测试,以评估其在多样化医疗基准测试中的表现。

图片

医疗决策-容斥问题框架的核心是将诊断过程建模为一个“容斥问题”。在这一框架下,大语言模型通过迭代询问患者的症状信息,逐步缩小可能的诊断范围,最终确定最可能的诊断。医疗决策-容斥问题的设计目标包括:
1、高诊断准确性:确保最终诊断与临床证据一致。

2、低错误率:减少误诊或漏诊的可能性。

3、减少人为干预:通过自动化诊断流程中的常规部分,简化临床工作流程。

图片

此外,医疗决策-容斥问题通过桥接机制,增强了大语言模型的推理能力。桥接是指通过外部知识库、领域专家或专门的计算模型,为大语言模型提供额外的背景相关信息,从而在复杂或重叠的临床场景中提高诊断的准确性。医疗决策-容斥问题还采用了多智能体协作的方法,当遇到跨领域的复杂症状时,主诊断智能体可以调用专科智能体进行进一步的分析和确认,从而增强诊断的可靠性和可解释性。
研究团队通过三个实验对“医疗决策-容斥问题”进行了定量基准测试,使用了MedQA数据集中的英语问题。MedQA数据集模拟了医学考试中的各种临床场景,能够有效评估模型的诊断推理能力。

1、零样本推理实验:在没有额外指导的情况下,DeepSeek V3表现最佳,准确率达到71.6%,而OpenAI o1Gemini 2.0 Flash Thinking的准确率分别为68.2%66.9%

2、指令引导推理实验:在提供简短指令提示后,OpenAI o1的准确率提升至75.7%Gemini 2.0 Flash ThinkingDeepSeek V3的准确率分别为74.5%73.6%

3、“容斥问题”集成推理实验:在集成“容斥问题”方法后,所有模型的准确率均有显著提升,DeepSeek V3 +“容斥问题”的准确率达到84.7%Gemini 2.0 +“容斥问题”和OpenAI o1 +“容斥问题”的准确率分别为83.2%82.6%

图片

在定性基准测试中,研究团队使用了《新英格兰医学杂志》的临床病理学会议案例,评估了医疗决策-容斥问题与其他模型在鉴别诊断质量和临床推理质量上的表现。结果显示,医疗决策-容斥问题在鉴别诊断生成和临床推理质量上均优于其他模型和人类医生。特别是在诊断推理的合理性评估中,医疗决策-容斥问题在所有五个案例中均获得了接近满分的R-IDEA评分,显著优于其他模型和医生。
本研究展示了医疗决策-容斥问题在增强临床诊断工作流程中的潜力。通过系统化的推理方法,医疗决策-容斥问题能够显著提高诊断的准确性和透明度,减少误诊和漏诊的风险。医疗决策-容斥问题的透明推理过程使得患者能够将人工智能生成的对话和推理过程与医生分享,从而增强了医生和患者对AI系统的信任。

图片

综上所述,本研究展示了所提出的医疗决策-容斥问题在提升医疗决策中的潜力,特别是在诊断准确性和推理能力方面的显著优势。医疗决策-容斥问题通过结合结构化的推理方法、桥接技术、逆向提示和多智能体协作,有效地提高了诊断准确性和效率,并减少了人工干预。“医疗决策-容斥问题”为未来的人工智能辅助医疗决策树立了新的标准。然而,为了确保人工智能系统在临床中的成功应用,仍需进一步研究其在真实世界中的表现,并建立相应的伦理和监控框架。最终,医疗决策-容斥问题及其类似系统有望在提高诊断效率、减少医疗错误和提升整体医疗质量方面发挥重要作用。
如需要《迈向元认知临床推理:对医疗决策-容斥问题和最先进的大语言模型进行医疗决策的比较性基准测试》(英文,共16页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。

图片


图片


图片


★ 每日鲜鸡汤  ★

Forget the mistake, remember the lesson. 弃过错于九霄,铭教训于心间。早上好!

图片