《用于多种慢性病早期预测的可解释的疾病监测系统》2025年3月8日《用于多种慢性病早期预测的可解释的疾病监测系统》这篇文章介绍了一种可解释的疾病监测系统,旨在利用电子病历数据对八种常见慢性病进行早期风险预测的可解释人工智能系统。该系统旨在弥补现有医疗系统在慢性病早期预警方面的不足,通过提前一年预测患者患病风险,从而帮助医生采取预防措施,降低医疗成本,并提高医疗服务的价值。研究背景和问题:慢性病是美国乃至全球主要的死亡和致残原因,占据了医疗保健支出的大部分。现有研究虽然尝试利用人工智能预测慢性病风险,但存在一些局限性:许多模型依赖于检验检查结果,而这些结果通常在医生已经怀疑患者患病时才会进行,错过了早期干预的最佳时机;部分模型缺乏可解释性,难以获得医生的信任和应用;一些模型的样本量较小,泛化能力不足。因此,迫切需要一个基于常规电子病历数据、可解释且易于应用于临床实践的慢性病早期预测系统。研究方法和数据:研究者利用 CureMD 公司的电子病历系统中整合的多家美国医疗机构的匿名化的电子病历数据,构建了预测模型。数据包含人口统计学信息、生命体征、既往诊断、社会病史、家族病史和药物信息等。为了解决数据不平衡问题,研究人员对正常患者样本进行了欠采样,以确保诊断组和正常组样本比例为 1:1。数据预处理过程包括处理原始电子病历数据中的噪声,并根据临床医生的建议,去除一些“依赖性”特征,只保留那些被认为更能提供可解释性依据的“独立性”特征。连续型变量如年龄、BMI 和平均动脉压(MAP)被转换为有序分类变量,其他大多数特征都被二值化(存在/不存在)。缺失值的处理方法也根据变量类型有所不同:生命体征或人口统计学信息的缺失值导致患者被剔除,而诊断代码的缺失值则被视为“不存在”。研究人员为每种慢性病训练了三个不同的预测模型,分别预测患者在未来 3 个月、6 个月和 12 个月内患病的风险。他们比较了多种模型,包括随机森林、AdaBoost、LightGBM 和 XGBoost,最终选择在验证集上表现最佳的随机森林模型。模型性能评估指标包括准确率、精确率、召回率、负预测值、特异性、AUC、AUPRC 和 F1 分数。F1 分数作为不平衡数据集的推荐性能指标,被重点关注。研究结果: 研究者针对八种慢性病(高血压、2型糖尿病、慢性肾脏病、冠心病、慢性阻塞性肺疾病、心房颤动、骨关节炎和高脂血症)分别建立了预测模型。结果表明,3个月预测模型的平均性能最好,其次是6个月和12个月模型。尽管12个月模型的预测准确率相对较低,但其临床价值最高,因为它为医生提供更长的预防窗口期。大多数慢性病的F1分数都超过75%,AUC值都超过 80%,表明这些模型具有较高的预测准确性和临床实用性。模型的可解释性:为了提高模型的可解释性,研究人员采用了多种方法。首先,他们利用SHAP值来确定重要特征,并以饼图的形式展示这些特征对预测结果的贡献度。其次,他们使用条形图突出显示那些增加患病风险的因素(正贡献特征),帮助医生制定针对性的干预方案。第三,他们使用了代理决策树和一种新颖的规则提取框架来解释模型的决策过程。智能体决策树简化了随机森林的决策过程,使其更容易理解。新颖的规则提取框架则通过迭代遍历随机森林中的每棵树,识别导致测试实例分类的决策路径,并基于SHAP值筛选重要特征,最终提取出简化的、易于理解的规则。模型的部署和应用:该系统通过一个本地部署的API与CureMD公司的电子病历系统集成,确保数据安全和隐私。API从电子病历系统中检索患者信息,生成疾病特异性特征向量,并运行预测模型。该系统能够为临床医生提供慢性病的实时风险评估,帮助他们及时采取预防措施,从而降低医疗成本,并提高医疗服务的价值。结论和未来工作:这项研究开发了一个实用、可解释且具有临床意义的疾病风险监测系统,能够提前3、6 和12个月预测多种慢性病的风险。该系统通过赋能临床医生采取预防措施,从而改善患者的健康状况,并降低医疗费用。未来,研究人员计划扩大疾病范围、延长预测时间范围,并进一步验证模型的泛化能力。总而言之,这项研究为慢性病的早期预测提供了一种新的、可行的方法,具有重要的临床意义和应用价值。其强调的可解释性,以及与现有电子病历系统的无缝集成,为人工智能技术在临床实践中的应用提供了宝贵的经验。这项工作不仅为医生提供了辅助决策工具,也为医疗资源的有效分配和价值医疗的实现提供了支持。如需要《用于多种慢性病早期预测的可解释的疾病监测系统》(英文,共10页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。★ 每日鲜鸡汤 ★Fill your life with experiences, not things. Have stories to tell, not stuff to show. 以阅历充盈人生,而非物华;怀故事可述,而非器物可炫。早上好!