这篇文章探讨了利用大语言模型从临床记录中预测未知诊断并将其与相应药物联系起来的可行性。研究人员发现,通过结合来自不同大语言模型配置的预测结果,可以显著提高诊断预测的准确性。这项研究的意义在于它为改善医疗人工智能应用中的诊断预测准确性和可靠性提供了新的方法。

文章首先指出,电子病历中药物和诊断之间的联系常常不明确,这给临床决策和研究工作带来了挑战。即使存在此类联系,诊断列表也可能不完整或不准确,尤其是在患者就诊初期,诊断的不确定性较高时。出院小结作为患者诊疗结束时的记录,可能提供更详细的患者就诊解释,有助于推断处方药物最可能且准确的诊断。

研究的目标是探索利用大语言模型从临床记录中预测隐含提及的诊断,并将其与相应的药物联系起来。研究人员提出了两个关键研究问题:(1) 与最佳单一模型配置相比,不同大语言模型配置的多数投票是否能提高诊断预测的准确性?(2) 多数投票的诊断预测准确性对大语言模型的超参数(包括温度、top-p采样和临床记录摘要长度)有多敏感?
为了解决这些问题,研究者们创建了一个新的数据集,该数据集包含来自20MIMIC-IV临床记录的240个专家标注的药物-诊断对。这个数据集的创建至关重要,因为它填补了现有研究中缺乏此类标注数据的空白。研究人员假设,结合确定性、平衡和探索性配置可以提高预测性能。他们系统地改变了关键超参数(温度、top-p采样和摘要长度),并测试了两种摘要长度(短摘要和长摘要)以评估上下文长度的影响。

研究使用GPT-3.5 Turbo生成了18种不同的配置,并随机选择五种配置的子集进行测试,总共产生了8568个测试用例。采用多数投票法选择最频繁的诊断。 性能评估使用准确率分数,比较多数投票与最佳单一模型配置,并分析对最高准确率有贡献的超参数。
结果表明,多数投票的准确率达到了75%,优于最佳单一配置的66%。没有单一的参数设置始终表现最佳;相反,结合确定性、平衡和探索性策略的多种配置产生了更好的性能。较短的摘要(2000个标记)通常提高了准确性,而较长的摘要(4000个标记)仅在确定性设置下有效。

本研究讨论部分分析了多数投票方法的有效性,并与现有的将药物与诊断联系起来的研究进行了比较。研究人员指出,现有研究要么依赖于结构化的电子病历数据,要么将深度学习应用于特定的用例,而没有明确地将药物与诊断联系起来。本研究通过利用大语言模型从非结构化记录中提取药物-诊断关系来弥补这些差距。
本研究还回顾了利用大语言模型进行医学知识提取和检索的相关工作,包括任务特定大语言模型蒸馏、微调LLaMA模型进行临床记录分析以及模块化方法的应用。此外,该研究还讨论了集成方法和大语言模型配置多样性的重要性,包括多数投票等技术,以及在医疗保健领域中集成方法的应用,例如“大语言模型-协同效应”在医学问答中的应用。

本研究的局限性在于数据集规模相对较小(240个药物-诊断对),只使用了GPT-3.5 Turbo一种大语言模型架构,并且没有探索其他集成方法,例如加权投票或堆叠。
未来的研究方向包括:使用更大、更多样化的临床数据集扩展该方法;探索其他集成方法;比较不同的大语言模型M架构,包括特定领域的模型;结合人工评估;以及研究大语言模型幻觉的影响并制定缓解策略。

综上所述,这项研究为利用大语言模型从临床记录中预测未知诊断提供了一种有效的方法。多数投票的集成方法显著提高了预测准确性,并突出了在大语言模型配置中平衡确定性、平衡和探索性策略的重要性。这项研究为改进临床决策支持系统和提高患者医疗质量提供了宝贵的见解,也为未来在医疗人工智能领域中利用大语言模型和集成方法的研究奠定了基础。然而,需要进一步的研究来解决数据集规模、模型架构多样性和集成方法选择的局限性。
如需要《利用大语言模型从临床记录中预测未知诊断》(英文,共19页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。




★ 每日鲜鸡汤  ★

Too many people think that the grass is greener somewhere else but the grass is green where you water it. Remember that. 世人总以为别处的草色更绿,殊不知,何处用心浇灌,何处便有青青芳草。请铭记于心!早上好!

图片