图片

这篇题为《为实现高效的临床信息提取而对大语言模型进行知识蒸馏》的研究文章探讨了如何利用知识蒸馏技术,将大语言模型(LLM)的知识转移到更小、更有效的模型中,从而提高临床信息提取的效率和可扩展性。传统的临床命名实体识别(NER)方法,例如基于规则的方法和基于医学本体的方法,虽然具有可解释性和计算效率的优势,但难以捕捉临床实体的多样化表达方式,例如同义词、缩写、细微的描述和拼写错误。而基于BERT的模型虽然性能优越,但通常局限于特定领域或实体类型,且需要大量标注数据进行微调,成本高昂。大语言模型虽然在零样本或少样本提示方面表现出色,但其巨大的计算资源需求和高昂的成本限制了其在实际临床环境中的部署。

 

图片

为了解决这些问题,作者提出了一种新颖的临床NER方法,该方法利用知识蒸馏技术,将大语言模型(GeminiOpenAI模型)以及医学本体(RxNormSNOMED)的知识转移到更小的BERT模型中。具体来说,他们首先构建了一个“教师标注数据集”该数据集包含来自多个公开可用数据集的超过2000份临床记录,涵盖了多种类型的临床记录,例如肿瘤病情进展记录、出院小结、放射学报告和科学摘要。这些临床记录被送入多个教师标注器,包括四个先进的LLM和一个基于医学本体的标注器,以提取药物、疾病和症状等实体。作者通过实验比较了所有可能的教师标注器组合,并选择了在开发集上F1分数最高的组合作为最佳组合。

 

图片

接下来,作者利用最佳教师标注器生成的标签,对BERT模型进行微调。他们比较了三种不同类型的BERT模型:通用语言模型BERT base、生物医学文献预训练模型BioBERT和临床文本专用模型BioClinBERT。实验结果表明,BioBERT在疾病和药物提取任务中表现最佳。更重要的是,他们将蒸馏后的BERT模型与直接使用教师标注器以及在人工标注数据上微调的BERT模型进行了比较。结果显示,虽然在人工标注数据上微调的模型性能最佳,但蒸馏后的BERT模型的性能与教师模型相当,甚至在某些情况下略优于教师模型,同时在推理速度和成本方面具有显著优势。

 

具体而言,蒸馏后的BERT模型的推理速度比GPT-4oo1-miniGemini Flash分别快12倍、4倍和8倍,成本分别降低了85倍、101倍和2倍。这表明知识蒸馏技术能够有效地降低临床NER的计算成本和时间成本。此外,作者还进行了外部验证研究,使用来自MedAlign数据集的临床记录对蒸馏后的BERT模型进行了评估。结果表明,该模型在药物和疾病提取任务上表现良好,即使应用于分布外的测试集,也取得了令人满意的结果。然而,在症状提取任务上的表现相对较弱。

 

图片

本文还进行了误差分析,以更好地理解模型的失败模式。分析结果表明,大部分误报是由于人工标注错误造成的,这突显了高质量数据标注的重要性。总而言之,这项研究证明了知识蒸馏技术在构建高效且经济的临床信息提取系统方面的潜力。蒸馏后的BERT模型在保持与大语言模型相当的性能的同时,显著降低了计算成本和时间成本,为临床NER任务提供了一种更具可扩展性和实用性的解决方案。这项工作为未来的研究提供了宝贵的经验,例如进一步改进教师标注策略、探索更有效的知识蒸馏方法以及开发更强大的临床NER模型。未来研究可以关注如何进一步提高症状提取的准确性,以及如何将该方法应用于其他临床信息提取任务,例如关系提取和事件提取。