图片

《利用非典型表征重校准提升医疗大语言模型置信度》一文深入研究了大语言模型(LLMs)在医疗领域的应用,特别是其置信度校准问题,并提出了一种基于非典型表征的重校准方法,具有重要的学术和实践价值。

 

在医疗领域,临床医生常根据患者的典型症状、体征、检测结果等进行诊断和治疗。然而,非典型症状的出现往往被忽视,这可能导致诊断错误和不当治疗。非典型表征在减少诊断错误和提升医学教育的问题导向学习中的重要性已逐渐获得关注。本文指出,在临床实践中认识到非典型表征对提供高质量医疗服务和做出明智的诊治决策至关重要。此外,尽管大语言模型在许多领域都表现出了卓越的性能,包括通过了美国律师资格考试和医学院考试,但在医疗领域,特别是涉及患者健康和生命安全时,其准确性和置信度尤为重要。

 

图片

本文首先调查了黑盒大语言模型和开源大语言模型在医疗环境中的失准行为。为解决这一问题,本研究提出了一种新的方法,即非典型表征重校准。该方法利用非典型表征来调整模型的置信度估计,从而提高模型的校准度和准确性。

 

与传统的仅依赖于模型自身输出置信度的方法不同,该方法引入了一个关键概念——“非典型性”。“非典型性”指的是病例中缺乏常见疾病特征,或出现与教科书描述不符的症状和体征。在医学实践中,识别非典型病例对于准确诊断和治疗至关重要,而大语言模型在这方面常常表现不佳。

 

图片

本文详细阐述了该方法的三个主要组成部分:提示语策略、采样策略和聚合策略。

 

对提示语而言,本文设计了三种提示语策略:

 

1、普通提示: 直接要求大语言模型提供答案及其置信度分数。这是最基础的方法,用作基线比较。

 

2、思维链提示: 引导大语言模型进行多步骤推理,以获得更可靠的置信度估计。这利用了思维链提示在提升大语言模型性能方面的优势,并将其应用于置信度估计。

 

3、非典型性提示: 这是本文的核心创新。它包含两种变体:

 

1)非典型表征提示: 要求大语言模型对病例中的每个症状进行非典型性评分 (0-10为高度非典型,1为典型),并根据这些评分调整最终置信度。

 

2)非典型场景提示: 要求大语言模型对整个病例场景进行非典型性评分,以反映场景的复杂性和不确定性。

 

图片

采样策略方面,本文采用了“自随机采样”,即多次向大语言模型提问相同的医疗问题,以获取多个答案和置信度估计。

 

聚合策略方面,本文使用了两种聚合方法:

 

一致性聚合: 根据多个答案与参考答案的一致性来计算最终置信度。

 

加权平均聚合: 将大语言模型提供的置信度分数作为权重,对多个答案进行加权平均。

 

图片

本研究使用四种不同的黑盒大语言模型,在三个医疗问答数据集上进行了实验。结果表明,该方法显著提高了模型的校准度,减少了校准误差约60%,并优于现有的基线方法。

 

进一步的分析显示,非典型性与模型的性能和校准度之间存在复杂的相互作用。研究观察到,考虑非典型表征对于开发更准确和可信的医疗大语言模型至关重要。此外,研究还发现,当被提示考虑一个情境时,大语言模型如何从较低层次聚合非典型性,比仅仅聚合症状的非典型性要优越,这为未来的研究提供了新的方向。

 

图片

总之,本研究通过提出非典型表征重校准方法,显著提高了医疗大语言模型的校准度和准确性。该方法利用非典型症状来调整模型的置信度估计,从而增强了模型在医疗问答中的可靠性。研究结果强调了非典型性在医疗诊断中的重要性,并为开发更准确和可信的医疗大语言模型提供了新的思路。未来,随着技术的不断进步和数据的日益丰富,我们有理由相信,医疗大语言模型将在临床实践中发挥越来越重要的作用。本文还提供了代码链接,方便其他研究人员复现和进一步研究。