图片

这篇题为《基于大语言模型的文本到表格的合成患者数据生成方法》的文章提出了一种新颖的方法,用于生成合成患者数据,即无需访问原始数据,仅需对所需数据库的描述, 便可生成符合实际医疗统计规律的合成数据。该方法利用大型语言模型(LLMs)的先验医学知识和上下文学习能力,即使在资源匮乏的情况下也能生成逼真的患者数据,为医疗研究提供了一种灵活、高效且经济的解决方案。

 

众所周知,高质量、大规模的医疗数据库对于加速医学研究和发现至关重要。然而,由于患者隐私、数据共享限制和高成本等问题,获取此类数据往往受限。“合成数据生成”方法作为解决方案便应运而生,但传统的合成数据生成方法通常依赖于在原始数据上训练的机器学习模型,结果,这又回到了数据稀缺的问题。

 

图片

本研究提出了一种文本到表格的 “合成数据生成方法,该方法直接利用大型语言模型作为合成数据生成模型,仅需数据库描述作为输入,无需访问原始数据或进行模型的预训练或微调。该方法将先验医学知识、详细的指令和数据规范以及虚拟患者示例整合到提示词中,然后将其输入到“冻结的大语言模型”(即没有再经过微调的大语言模型)中以生成合成数据。
具体而言,该方法的提示词包含以下几个部分:

 

●先验知识: 包括对医学数据库和疾病的全面描述,以及与目标人群相关的纳入/排除标准。

 

●指令: 指导大语言模型避免冗余信息,并指定输出格式(例如 JSON)、行数和数据类型。

 

●上下文: 包含少量虚拟患者示例,以提高生成数据的真实性。这些示例可以来自文献中的汇总数据或医学专家的咨询。

 

图片

为了生成合成表格数据,该方法迭代地生成多个表格,每次生成一定数量的行,因为大语言模型的输出长度有限制。此外,由于表格数据的列顺序无关紧要,该方法在每次生成时都会随机排列列的顺序。

 

研究人员使用“帕金森病进展标志物倡议”数据库和“阿尔茨海默病神经影像倡议”数据库的数据评估了该方法。他们将该方法与几种需要访问原始数据的基线表格到表格合成数据生成模型进行了比较,并使用多种指标评估了合成数据的保真度、隐私性和效用。

 

图片

结果表明,该方法生成的合成队列在临床特征方面与真实的帕金森病进展标志物倡议数据库和阿尔茨海默病神经影像倡议队列非常相似,保留了真实数据的统计特性和模式。尽管合成数据的标准差较低,且异常值较少,但分布形状和参数与真实数据非常接近。然而,在影像学变量方面,合成数据与真实数据之间存在一些差异,这可能是由于这些变量对帕金森病和阿尔茨海默病人群的敏感性以及文献中缺乏可用的统计分析数据造成的。
与基线合成数据生成模型相比,该方法在某些指标上表现出竞争力,尤其是在不依赖原始数据的情况下。尽管在某些指标上不如在原始数据上训练的模型,但该方法有效地生成了具有良好临床相关性的逼真患者数据。

 

消融研究表明,提示词中的各个组成部分对合成数据质量都有影响,例如使用更先进的大语言模型模型以及添加虚拟患者示例都能提高合成数据的质量。

 

图片

综上所述,这项研究提出了一种简单易用、无需原始数据或高级机器学习技能的合成患者数据生成方法。该方法特别适用于快速生成定制设计的患者数据,支持项目实施并提供教育资源,为医疗研究提供了新的可能性。该方法虽然在某些指标上与基于原始数据的模型存在差距,但其在无需原始数据的情况下生成具有临床相关性的合成数据的优势使其具有重要的应用价值,尤其是在数据获取困难或受隐私限制的情况下。随着大语言模型的不断发展,我们有理由相信,未来这种方法将在医疗数据生成和分析领域发挥更大的作用。