
引言
《利用大语言模型先验知识减少临床试验所需患者数量》一文提出了一种创新方法,通过利用大语言模型(LLMs)的先验知识来改进多中心临床试验中不良事件的分层贝叶斯建模,从而减少达到相同统计效力所需的患者数量。本文由大阪市立大学、德国人工智能研究中心等机构的研究人员共同撰写,展示了大语言模型在临床试验设计中的巨大潜力。
研究背景与动机
传统上,临床试验中不良事件的建模面临样本量有限、临床站点间存在异质性以及难以将临床专业知识纳入统计模型等挑战。分层贝叶斯模型通过允许站点间信息共享并考虑站点特异性变异,为这些问题提供了解决方案。然而,贝叶斯模型中先验分布的指定一直是一个难题,尤其是在临床背景下,领域专业知识丰富但难以量化。

研究方法
●分层贝叶斯模型构建
研究聚焦于多中心临床试验中个体患者数据(IPD)的分层贝叶斯建模,特别是使用分层泊松-伽马框架对不良事件计数进行建模。在该框架中,患者层面的不良事件计数被建模为泊松分布,站点特异性率则遵循伽马分布。关键创新在于使用大语言模型生成的先验知识来指定这些分层结构的超参数先验分布。
●大语言模型在先验知识获取中的应用
研究系统比较了两种代表性的大语言模型:Llama 3.370B(通用语言模型)和MedGemma 27B(专门针对生物医学和临床知识微调的模型)在先验知识获取中的应用。通过两种不同的提示策略——盲提示和疾病知情提示,研究人员从大语言模型中系统地获取了超参数的先验分布,并评估了它们对分层贝叶斯模型的影响。
●温度敏感性分析
为了确保先验知识获取的鲁棒性,研究系统地变化了GPT-4的温度参数(T∈{0.1, 0.5, 1.0}),以观察不同温度下大语言模型响应的一致性和多样性。低温度(T=0.1)产生一致、集中的响应;高温度(T=1.0)则产生更多样化、创造性的响应。每种温度-提示组合下,研究人员进行了5次独立的大语言模型查询,并对结果参数进行了算术平均,以确保统计稳定性。

实验设计与结果
●实验数据
实验使用了来自NCT00617669(非小细胞肺癌,NSCLC)多中心临床试验控制臂的真实个体患者数据,该数据集包含468名患者在125个临床站点的不良事件计数,为方法验证提供了现实测试平台。
●交叉验证模型比较
通过5折分层交叉验证,研究人员比较了大语言模型生成的贝叶斯先验与元分析先验的预测性能。结果显示,使用Llama 3.3盲提示在T=1.0时获得的先验分布表现最佳,其对数预测密度(LPD)显著优于元分析先验。
●样本效率分析
进一步分析表明,即使使用较少比例的训练数据(如80%),基于大语言模型的先验分布也能保持与使用全部训练数据的元分析先验相当或更好的预测性能。具体而言,使用80%训练数据的大语言模型先验(LPD=-4.093)优于使用100%训练数据的元分析先验(LPD=-4.103),相当于减少了约66名患者(从328名减少到262名)。

讨论与结论
研究结果表明,大语言模型生成的先验分布能够显著提高分层贝叶斯模型在临床试验不良事件建模中的预测性能和样本效率。Llama 3.3在盲提示和高温度设置下表现最佳,且疾病知情提示并未始终优于盲提示,表明大语言模型中编码的一般临床专业知识足以进行有效先验指定。
未来研究方向
尽管本研究在单一疾病领域(NSCLC)和单一数据集上取得了显著成果,但未来研究应探索在不同临床背景下的验证、比较更多大语言模型以及评估先验信息量和临床影响。此外,将大语言模型生成的先验知识与大语言模型驱动的数据增强相结合,可能进一步提高预测准确性和模型鲁棒性,尤其是在小样本或异质性临床环境中。
总之,本文展示了大语言模型在临床试验设计中的巨大潜力,通过系统融入临床专业知识,显著提高了统计效率并减少了所需患者数量,为未来临床试验提供了新的思路和方法。
如需要《利用大语言模型先验知识减少临床试验所需患者数量》(英文,共9页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



When you build in silence, people don't know what to attack. 默然筑梦时,世人难觅攻讦处。早上好!
