《“临床决策评估基准”:大语言模型在临床决策中的多维度和多粒度评估》
2024年10月17日
![图片]()
准确的诊断对于提供有效的医疗服务至关重要,涉及基于对患者人口统计数据、症状、病史和检查检验结果的全面分析来识别疾病和进行治疗管理。这是一个复杂的认知过程,需要广泛的医学知识、推理和经验。在数字医疗时代,构建能够自动化或在高准确度下协助临床医生完成这一过程的人工智能系统,对于降低医疗成本和增强医疗服务的可及性具有深远的影响。
![图片]()
随着人工智能,特别是对于大语言模型(LLMs)在临床诊断过程中的整合,为提高医疗服务的效率和可及性提供了巨大的潜力。尽管大语言模型在医疗领域展示了一些前景,但它们在临床诊断中的应用仍然未被充分探索,尤其是在需要高度复杂、患者特定的决策的现实世界临床实践中。当前的大语言模型评估往往范围狭窄,侧重于特定疾病或专业,并采用简化的诊断任务。为了弥合这一差距,本文引入了“临床决策评估基准”,这是一个基于MIMIC IV数据集开发的新颖基准,旨在全面而真实地评估大语言模型在临床诊断中的能力。该基准不仅涵盖了来自各个医学病例的多样化诊断,还包括具有临床意义的诊治识别、检查检验医嘱和药物处方任务。通过结构化的输出本体支持,“临床决策评估基准”能够实现精确且多粒度的评估,提供对大语言模型在不同临床任务上能力的深入理解。
![图片]()
作者对一些领先的大语言模型进行了零样本评估,以评估它们在临床决策中的熟练程度。初步结果显示了当前的大语言模型在临床环境中的潜力和局限性。这些结果为未来的研究和开发提供了宝贵的见解,也为改进大语言模型在医疗领域的应用指明了方向。“临床决策评估基准”的出现为更准确、更全面地评估大语言模型的临床诊断能力提供了重要的工具,推动了人工智能在医疗领域的应用发展。本文强调了构建更真实、更全面的基准测试的重要性,以促进人工智能在临床决策中的应用。