《分析痴呆症患者运动行为动态的两阶段表征学习》
Feb. 16, 2025
![图片]()
这篇题为《分析痴呆症患者运动行为动态的两阶段表征学习》的文章提出了一种创新的两阶段表示学习框架,用于分析痴呆症患者的居家活动数据,并以此预测其认知状态。该框架巧妙地结合了预训练语言模型和佩奇排名算法,有效地将高维、复杂的时间序列数据转化为低维、可解释的潜在状态向量,为个性化治疗干预和大型健康监测提供了新的途径。
文章首先指出,远程医疗监测中,可穿戴设备和物联网设备收集到的高频时间序列数据规模庞大,直接分析困难。现有的半监督和无监督学习方法虽然能够提取数据特征,但常常面临标签模糊和结果难以解释的挑战。为了解决这些问题,该项研究提出了一种两阶段的自监督学习方法。
![图片]()
第一阶段,本文采用了一种预训练的语言模型对预处理后的时间序列活动数据进行编码。预处理过程包括去除噪声、标准化数据以及将时间序列数据转化为文本序列。为了增强模型的学习能力,研究人员使用了伪标签和one-hot相似性方法。这一阶段将时间序列数据转化为高维向量表示,捕捉数据中的时间依赖性和模式。第二阶段,本文利用基于佩奇排名的算法对第一阶段生成的向量进行降维处理。佩奇排名算法最初用于网页排名,这里被用来分析潜在状态之间的转移矩阵,从而将高维向量压缩到低维潜在状态空间。这种低维表示不仅提高了模型的可解释性,也方便了聚类和转移分析,揭示了与临床指标相关的关键行为模式。
![图片]()
本文详细描述了其方法的数学基础,包括采样和文本转换、语言模型编码、降维和佩奇排名算法的应用。最终生成的低维向量捕捉了原始数据中深层的语义关系。本研究使用了包含134名痴呆症患者居家活动数据的原始数据集,数据涵盖了2021年7月1日至2024年1月30日期间患者在不同房间和睡眠垫上的活动时间,总记录天数为66096天。经过数据清洗,剔除缺失数据后,最终用于分析的数据集包含50名参与者的完整信息。
实验部分,本文首先通过K均值聚类算法将测试集的文本向量聚类为5个簇,代表5个潜在状态。t-SNE降维技术被用来将高维嵌入投影到二维空间,方便可视化分析。通过对二维空间中个体向量的变化进行观察,可以直观地了解不同参与者的行为轨迹。
![图片]()
更重要的是,本文结合临床专家意见和诊断结果,利用随机游走模型和佩奇排名算法对二维图进行分析,定量评估了向量簇(潜在状态)所代表的更深层次的语义。多周期热图分析显示了不同潜在状态的佩奇排名值随时间的变化,以及参与者之间行为相似性的变化。这些结果揭示了参与者之间不同的行为模式,有些参与者在多个时间段内都表现出特定潜在状态的稳定性和周期性,而另一些参与者则表现出显著的变化。余弦相似度热图则揭示了在某些时间段内行为模式相似的参与者群体。本文还进行了认知状态预测性能评估。通过比较使用不同特征组合(包括基线特征、状态特征、患者特征和组合特征)的模型性能,结果表明,仅使用状态特征的模型在预测“阿尔茨海默病评估量表-认知”和“简易智力状态检查量表”评分方面取得了最佳性能。这表明,低维潜在状态向量有效地捕捉到了患者的认知模式。
![图片]()
最后,本文总结了其研究成果,并展望了未来的研究方向,包括将该方法扩展为生成模型,用于生成医疗数据以进行数据增强或对齐。
总之,这篇文章提出了一种新颖的两阶段表示学习框架,有效地解决了远程医疗监测中高维时间序列数据分析的难题。该框架通过结合语言模型和佩奇排名算法,将复杂的行为数据压缩成低维、可解释的潜在状态向量,为痴呆症患者的认知状态预测、个性化医疗干预和大型健康监测提供了有力的工具。该项研究结果令人鼓舞,为未来在痴呆症诊疗和远程医疗领域的研究提供了重要的参考价值。未来的研究可以进一步探索该框架在其它疾病领域的应用,并改进模型以提高预测精度和鲁棒性。