《利用基于实验室数据的人工智能与规则相融合的决策支持系统实现疾病的诊断和管理》

一、引言与研究背景

随着电子病历在临床实践中的广泛应用，临床决策支持系统（CDSS）在提升医疗质量、降低误诊率、优化诊疗流程方面发挥着越来越重要的作用。传统的CDSS主要依赖两种技术路径：一是基于医学知识库的规则驱动系统，二是基于人工智能（AI）的预测模型。规则系统因其透明性和可解释性，在临床医生中接受度较高，但其知识更新和维护成本高、难以覆盖复杂临床场景；而AI模型虽能处理高维数据、识别复杂模式，但其“黑箱”特性使得临床医生在信任和使用上存在顾虑。

针对这一问题，本文提出了一种融合规则引擎与AI预测模型的新型混合CDSS，旨在结合二者的优势，构建一个既具备高预测能力又具备可解释性的诊断辅助工具。该系统以患者的实验室检验数据为核心输入，通过多分类模型预测“可能诊断”，再由规则系统进行“诊断确认”，并提供后续检查建议和SHAP值解释，形成完整的辅助诊断闭环。

二、系统架构与核心模块

该CDSS系统主要包括以下四个核心模块：

1、基于规则的诊断确认模块

该模块基于医学指南构建的规则库，对患者的实验室结果进行条件判断。每条规则由多个条件组成，包括检验项目、比较方式、参考值和单位等。当患者的所有条件满足时，系统即可确认相应诊断并自动分配ICD-10编码。当前系统已覆盖59种疾病，规则由临床医师团队提取并持续扩展。该模块的优势在于其诊断逻辑透明、符合临床标准，能够作为最终诊断的“金标准”依据。

2、疑似诊断辅助模块

该模块采用XGBoost多分类模型，基于患者的实验室数据（如血常规、肝功能、脂类等）预测其可能患有的疾病类别。模型输出为一个疾病组的概率排名，医生可参考该排名进行进一步诊断。系统将37种ICD-10编码归为11个疾病组，包括上呼吸道感染、2型糖尿病、贫血、肾病、甲状腺功能减退等。该模块的设计目的是帮助医生在诊断过程中缩小关注范围，提高诊断效率。

3、解释模块

为增强AI模型的可信度，系统引入SHAP值（沙普利加法解释）对模型预测结果进行解释。SHAP值能够量化每个特征（如某项实验室指标）对预测结果的贡献方向和大小。系统可为每位患者生成个体化的解释图表，帮助医生理解为何模型将某疾病列为高概率诊断，从而提升临床接受度。

4、后续检查推荐模块

当系统识别出某疾病为“疑似诊断”时，会进一步推荐与该疾病相关的后续检验项目。这一功能旨在辅助医生按照临床指南完成诊断确认过程，减少不必要的检查，提升诊疗效率和患者体验。

三、数据来源与处理

本研究使用了CureMD电子健康记录系统中593,055名患者的数据，覆盖美国547个基层医疗机构，时间跨度为2000至2023年。数据包含患者的年龄、性别、种族、地理位置及多种实验室检验结果。实验室项目涵盖血常规、综合代谢面板（CMP）、脂类面板、肝功能等。为保证数据质量，研究团队通过IMO API对检验名称进行了标准化处理，统一了单位，并剔除了异常值和单位不一致的样本。

在患者选择方面，研究仅纳入在诊断前一年内进行过实验室检查的患者，并以首次诊断日期作为参考时间点。健康对照者为未患任何研究涵盖疾病的患者。最终数据集按8:2比例划分为训练集和测试集，采用分层抽样保证各类疾病分布一致。

四、方法学与模型构建

1、诊断确认模块：规则引擎

规则引擎基于临床指南构建，每条规则包含多个条件，所有条件满足时即确认诊断。该模块的实现方式使系统具有高度可扩展性，便于后续引入更多疾病和更新指南。

2、疑似诊断模块：XGBoost多分类

研究选用XGBoost作为核心分类模型，因其天然支持缺失值处理、具备良好的泛化能力和可解释性。为应对疾病分布不均衡的问题，模型在训练时采用了基于类别频率的加权策略，并通过平方根调整权重，提升了少数类别的识别能力。超参数优化采用网格搜索与5折交叉验证，最终确定最优参数组合。

五、实验结果与性能评估

1、Top-N准确率

模型在测试集上的Top-N准确率表现如下：

●Top 1: 31.18%

●Top 3: 66.43%

●Top 5: 83.10%

●Top 10: 98.87%

研究将Top 5作为临床应用的平衡点，既能覆盖绝大多数患者的真实诊断，又不至于提供过多信息干扰医生判断。

2、各疾病组召回率

在Top 5条件下，各疾病组的召回率表现良好：

●上呼吸道感染: 0.943

●贫血: 0.860

●维生素D缺乏: 0.823

●正常人群: 0.916

其中，甲状腺功能减退（0.528）和缺血性心脏病（0.488）的召回率相对较低，反映出这些疾病在实验室指标上的表现不如其他疾病典型。

3、混淆矩阵与预测分布

混淆矩阵显示，模型对多数疾病组的预测具有较高的对角线密度，说明分类准确性较高。上呼吸道感染与肺病之间存在一定混淆，符合二者在临床表现和实验室指标上的相似性。在预测分布方面，模型对各疾病组的预测比例与真实分布高度一致，最大偏差不超过3%，说明模型具有良好的群体校准能力。

六、可解释性与临床信任

通过SHAP值分析，系统能够为每项预测提供特征重要性排序。例如，在2型糖尿病的预测中，空腹血糖、糖化血红蛋白等指标被模型赋予高权重，符合临床认知。对于个别患者，系统可生成个性化的特征贡献图，帮助医生理解模型为何给出某一诊断建议。这种透明性显著提升了AI系统在临床环境中的可接受性。

七、局限性与未来方向

尽管本研究在混合CDSS的设计与实现上取得了显著进展，但仍存在以下局限性：

1、数据来源单一：系统仅依赖实验室数据，未纳入生命体征、影像学、病理报告、患者主诉等关键临床信息，可能影响对某些疾病的预测能力。

2、疾病覆盖有限：当前仅覆盖37种ICD-10编码和59种健康条件，尚未涵盖更广泛的疾病谱。

3、时间窗口固定：系统仅使用诊断前一年内的实验室数据，未考虑时间序列变化对疾病进展的反映。

未来研究将从以下方向扩展：

●引入时间序列建模，捕捉实验室指标随时间的动态变化；

●扩展推荐内容，从后续检验延伸至药物、手术、治疗方案等；

●融合多源数据，构建更全面的患者画像；

●在实际临床环境中开展前瞻性验证，评估系统对诊疗效率和患者结局的实际影响。

八、结语

《利用基于实验室数据的人工智能与规则相融合的决策支持系统实现疾病的诊断和管理》一文，为破解医疗AI落地的“信任危机”与“泛化难题”提供了极具价值的范本。它证明了，将人类积累的确定性医学知识与机器挖掘的概率性洞察相结合，是通往高精度、高可靠性临床决策支持的必由之路。这种混合架构不仅提升了诊断的准确性与效率，更通过可解释性重建了人机之间的信任纽带。在医疗数字化转型的浪潮中，此类兼具严谨逻辑与智能灵活性的系统，将成为守护患者健康、赋能临床医生的关键力量，推动医疗服务向着更加精准、高效且人性化的方向迈进。这不仅是一次技术的革新，更是一场医疗思维模式的深刻变革。

如需要《利用基于实验室数据的人工智能与规则相融合的决策支持系统实现疾病的诊断和管理》（英文，共13页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

Sometimes progress means doing less-less explaining, less fixing, less chasing. 有时，进阶之道，贵在减法：少一分辩白，省一分匡正，止一分奔逐。早上好！

《利用基于实验室数据的人工智能与规则相融合的决策支持系统实现疾病的诊断和管理》

《大规模标准化医学图像以促进人工智能应用》

《集成电子病历的、大语言模型驱动的外科患者分诊工具的部署与评估》

《医疗与医学中的智能体 AI：大语言模型智能体的实证评估之七维分类法》

《医生仍会亲自接诊：论智能体AI在医疗领域的结构性局限》

《多智能体框架在多变量生理时间序列解析中的应用》