
这篇文章介绍了“医码通”,一个利用生成式AI辅助医疗编码的框架,旨在解决传统自然语言处理(NLP)方法在自动化医疗编码方面面临的挑战。传统方法难以自动化医疗编码的原因在于其标签空间巨大、文本输入冗长且缺乏支持代码选择的证据标注。“医码通”通过整合提取、检索和重排序技术,显著提高了国际疾病分类(ICD)代码预测的准确性,并在一个新创建的数据集上取得了优异的性能。
文章首先阐述了医疗编码的重要性及其面临的挑战。国际疾病分类(ICD)是全球公认的疾病记录、报告和监测标准,准确的ICD编码对于医疗账单、医疗资源分配和医学研究至关重要。然而,人工医疗编码耗时费力且容易出错,目前缺乏可靠的自动化解决方案。虽然自然语言处理领域已有一些自动化ICD编码的研究,但这些方法通常将任务定义为多标签分类问题,面临标签空间巨大、医疗记录数据多样化且缺乏标准化以及标签分布严重不平衡等挑战。即使是先进的深度学习技术,其性能也远未达到完全自动化的水平,且通常缺乏可解释性,难以解释代码选择的理由。

针对这些挑战,“医码通”框架应运而生。该框架的核心思想是将大语言模型的内在知识与检索和重排序技术相结合,以提高ICD代码预测的准确性和可解释性。“医码通”框架包含三个主要组件:
●提取:利用大语言模型(论文中使用GPT-4)从医疗记录中提取疾病诊断、支持性证据文本和初步的ICD-10代码。为了避免大语言模型可能出现的幻觉问题,“医码通”采用模糊匹配和BM25相似度评分等技术对提取的诊断和证据进行验证,确保其准确性。
●检索:利用语义搜索技术,在提取的疾病诊断和ICD-10代码描述之间进行匹配,生成候选ICD-10代码集。 “医码通”整合了ICD-10本体和统一医学语言系统(UMLS)元术语库中的代码描述,以提高检索的准确性和对医学同义词的处理能力。
●重排序:将步骤1中大语言模型生成的代码和步骤2中检索到的代码进行重新排序,以产生最终的ICD-10代码预测结果。这个过程同样利用大语言模型,但只考虑提取的诊断和支持性证据,使大语言模型能够根据相关信息对代码进行优先级排序,并过滤掉大语言模型可能产生的幻觉输出。

为了评估“医码通”框架的性能,研究人员创建了一个新的数据集,该数据集扩展了ACI-BENCH数据集,并手工添加了ICD-10代码、疾病诊断和支持性证据文本的标注。实验结果表明,“医码通”在ICD代码预测任务上的微型F1分数达到了0.60,显著优于现有的SOTA方法。消融实验进一步证实了“医码通”框架中每个组件的重要性,当单独评估这些组件时,性能都会下降。此外,文章还对“疾病命名实体识别”进行了比较,结果显示“医码通”的疾病诊断提取性能也优于其他SOTA的疾病命名实体识别系统,包括BioBERT、SciSpacy、UniNER和GLiNER。
文章还对“医码通”的错误进行了分析,并展示了一个初步的用户界面设计,说明“医码通”如何作为生成式AI助手集成到医疗编码工作流程中。该界面允许编码人员查看高亮的疾病诊断和支持性证据文本,并从“医码通”提供的多个候选ICD-10代码中选择合适的代码。

最后,文章讨论了“医码通”框架的局限性和未来的研究方向,例如探索其他大语言模型,处理非文本格式的医疗记录,以及解决数据隐私问题等。总而言之,“医码通”框架为自动化医疗编码提供了一种新的、更准确和更可解释的方法,为提高医疗编码效率和准确性提供了有益的尝试。同时,该研究也为未来生成式AI在医疗领域的应用提供了重要的参考价值。
如需要《“医码通”:一种用于医疗编码的生成式人工智能助手》(英文,7页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



If you want to be happy, have zero expectations of others, take 100% responsibility for your life, and be grateful for what you have. 若欲心常乐,便当对他人不存丝毫期许,对自己的生活全然担起责任,且对你所拥有的一切常怀感恩之心。早上好!
