图片

引言

在临床医学与精准医疗的研究中,电子病历为理解疾病进程、治疗反应及患者预后提供了丰富的纵向时序数据。然而,如何从这些大规模、异质性强的数据中自动发现个体化的临床轨迹,仍是当前人工智能模型面临的一大挑战。尽管以转换模型为代表的模型在捕捉变量间关联方面表现出色,但它们往往忽略了事件发生的时间顺序与时间间隔,从而限制了其在因果推断与个性化预测中的应用。

为此,本文提出了一种名为LITT的新型时序建模架构,旨在将时间作为一个真正的可计算维度引入模型,并通过时序注意力机制实现对个体临床轨迹的精准对齐与解释。该研究不仅在理论上厘清了可学习时间可计算时间的本质区别,还在实际临床数据中验证了LITT在事件时间回归、轨迹发现与生存分析中的优越性。

图片

研究动机与核心思想

在临床时序数据中,事件的发生顺序与间隔往往蕴含着重要的病理生理信息。例如,高血压患者若长期吸烟,其卒中风险将显著升高。然而,现有的深度学习方法多将时间作为输入特征之一,而非作为可预测的目标变量。这种时间作为特征的方式,虽然在处理缺失值、不规则采样等方面有所进展,但并未真正实现对事件发生时间的解释与预测。

作者指出,时间不仅应当是可学习的输入,更应当是模型可输出的、具有解释能力的变量。为此,LITT构建了一条虚拟相对时间轴,将不同患者的绝对时间序列对齐到该轴上,从而实现事件时序的可比性。通过这种对齐,模型可以识别出在不同患者中具有高度时间一致性的关键事件序列,进而实现对临床轨迹的自动发现与可视化。

图片

LITT模型架构

LITT的核心架构建立长短时记忆网络(LSTM之上,并引入了一个专门设计的时间变换门。该门控模块以绝对时间戳为输入,动态生成每个患者在每个时间步上的时间缩放系数γ。这些系数用于构建相对时间轴,使得模型能够在同一时间轴上对不同患者的事件序列进行对齐。

该设计的关键在于,长短时记忆网络(LSTM细胞状态能够在整个序列中稳定保留历史信息,从而为时间变换系数的累积计算提供支持。相比之下,门控循环单元(GRU由于隐藏状态的指数衰减特性,难以在长时间尺度上保持时间信息的完整性。因此,长短时记忆网络(LSTM)被选为LITT的骨干网络,以确保时间变换的准确性与稳定性。

在数学上,LITT通过二阶常微分方程的形式推导出时间变换函数,使得原始绝对时间序列可以被映射到一个无阻尼的简谐振荡模型中。这种变换不仅简化了时序建模的复杂度,还为后续的时序注意力计算提供了理论基础。

图片

时序注意力的定义与计算

LITT提出了一种新的注意力机制——时序注意力,用于衡量某一事件在患者群体中的时间对齐程度。具体而言,对于某一类事件,所有经历该事件的患者在相对时间轴上的分布可以被量化。作者使用超额峰度作为度量指标,值越高表明事件在时间轴上越集中,因而具有更高的时序显著性。

在模型运行过程中,LITT采用条件选择策略:在每个时间步,模型选择当前峰度最高的事件作为最显著事件,然后在后续步骤中基于已选事件重新计算其余事件的峰度。这一过程递归进行,最终形成一条由最显著事件构成的临床轨迹。这种条件选择机制有效避免了传统方法中对所有事件组合进行枚举的计算爆炸问题。

图片

实验设计与结果

研究使用了来自美国费尔维尤医疗集团3276名乳腺癌患者的真实电子病历数据,时间跨度从2012年至2024年,最小随访期为1年。预测目标为三种心血管并发症:心力衰竭、缺血性心脏病和心律失常。模型输入为36维结构化特征,包括人口学信息、生命体征、实验室检测、药物使用及诊断记录。

实验分为三个主要部分:

1、临床轨迹发现

在轨迹发现任务中,LITT成功识别出以首次放疗”“首次化疗首次靶向治疗为起点的三条主要临床轨迹。这些轨迹展示了不同治疗路径下患者的典型事件序列,并在每个节点上标注了事件发生的患者数、心脏病阳性率及时序注意力值。

例如,在放疗起始的轨迹中,模型识别出三条分支,其中一条分支具有较高的注意力值,提示该路径中的事件顺序具有更强的临床意义。而在化疗起始的轨迹中,多条分支在后期趋于一致,表明存在马尔可夫毯结构,事件顺序的相对重要性较低。这些发现不仅验证了LITT在轨迹发现中的有效性,也揭示了真实临床实践中基于肿瘤分期的精准治疗策略。

2、事件时间回归

在事件时间回归任务中,LITT直接预测患者发生心血管事件的具体天数。由于传统生存分析模型不直接支持连续时间回归,研究以长短时记忆网络(LSTM门控循环单元(GRU作为基线进行比较。结果显示,LITT均方根误差 (RMSE)、曲线下面积(AUC)和F1等多个指标上均显著优于基线模型。

特别地,LITT在启用个体化时间缩放系数后,预测性能大幅提升,表明个体化时间特征对于准确预测事件时间至关重要。相比之下,长短时记忆网络(LSTM)和门控循环单元(GRU)在训练过程中未能有效收敛,说明它们难以将时间作为可计算维度进行建模。

3、生存分析对比

尽管LITT并非专为生存分析设计,但其预测的事件时间可用于计算一致性指数(C-index)。在“了解预后和偏好对治疗结果和风险影响的研究(SUPPORT“国际乳腺癌协会的分子分类数据库METABRIC)”两个公共数据集上,LITTC-index上优于Cox比例风险模型、随机生存森林、DeepSurvDeepHitDSM等主流方法,尤其在SUPPORT数据集上表现突出。这表LITT在单风险生存分析中具有较强的竞争力。

图片

讨论与贡献

本文的主要贡献可归纳为以下几点:

1、明确区分可学习时间可计算时间,并指出时间作为可预测变量在临床建模中的重要性;

2、提出LITT模型,通过长短时记忆网络(LSTM)骨干网络与时间变换门实现了相对时间轴的构建与事件时序对齐;

3、定义并实现了时序注意力机制,使得模型能够自动发现最具时间显著性的临床轨迹;

4、在真实电子病历数据中验证了LITT在轨迹发现、事件时间回归与生存分析中的有效性,展示了其在精准医疗中的潜在应用价值。

此外,LITT生成的个体化事件时间预测为后续的因果推断提供了可比较的输出,为临床AI在因果建模方向的发展奠定了基础。

图片

局限性与未来方向

尽管LITT在多个任务中表现出色,但仍存在一定局限性。首先,模型对个体化时间缩放系数的依赖较强,若缺乏足够的外部数据支持,性能可能受限。其次,LITT目前仅支持单风险事件预测,尚未扩展到竞争风险场景。未来,研究可进一步探索LITT在多任务学习、多模态数据融合及因果推断中的应用。

结语

LITT通过将时间作为可计算维度引入深度时序建模,提出了一种兼具解释性与预测能力的创新架构。其在真实临床数据中的成功应用,不仅为电子病历数据分析提供了新思路,也为实现真正意义上的个性化医疗迈出了重要一步。随着临床AI对时序信息建模需求的日益增长,LITT所代表的时间中心化建模范式,有望成为未来精准医学研究的重要工具。

如需要《时间到事件转换模型:捕获电子病历时序数据中事件的时序注意力》(英文,共13页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。
图片

图片

图片


★ 每日鲜鸡汤  ★

If you fail,congratulations. Most people don't even try. 败亦当贺,盖因众人未尝一试。早上好!

图片