《利用经知识调整后的大语言模型自动提取临床数据》
2024年7月10日
![图片]()
《利用经知识调整后的大语言模型自动提取临床数据》一文提出了一种利用经知识调整后的大语言模型(LLMs)从医学影像报告和临床报告中自动提取临床数据的新框架。该框架通过整合领域特定知识和上下文学习,解决了传统大语言模型在从非结构化文本中提取肺部病变信息方面的局限性。从医学影像报告和临床报告中提取肺病变临床数据,对强化和优化包括肺癌在内的肺部相关疾病的早期发现和研究具有至关重要的作用。准确的自动提取可以减少放射科医生或内科医生所需的手工工作量。![图片]()
然而,由于医学语言的复杂性和可变性,解释报告中的非结构化文本面临着相当大的挑战。为特定的医学术语创建专门的有监督的机器学习模型可能效果较好,但这往往是资源密集型的,而且这种模型可能很难训练和维护。最近,大语言模型(LLM)已成为一种常规临床数据提取的宝贵辅助工具。尽管如此,利用大语言模型进行临床数据提取仍面临一些挑战。首先,大语言模型容易出错,而且经常出现“幻觉”, 即返回原始报告中没有的结果。其次,由于大语言模型知识的静态性质和在训练中使用的是一般性文本,因而这类大语言模型经常难以处理需要特定领域临床知识的提取查询。第三,尽管大语言模型可以为一些基础性的提取任务提供较高的准确性,但它们往往会错过细粒度的细节。这是因为肺部病变信息的提取需要了解特定于领域的字段(如边缘和体积),而这些字段不包括在适用于更一般领域的预定义模式中。最后,为了提取复杂的领域特定字段,大语言模型通常无法理解嵌套的子字段,因此,它们可能会生成结构不一致的输出。![图片]()
为了提供一种解决上述局限的临床数据提取自动化方法,作者们提出了一种两阶段大语言模型框架,该框架使用内部知识库,该知识库使用上下文学习(ICL)与专家生成的外部知识库迭代对齐。具体来说,他们首先通过利用人工创建的医疗报告训练语料库来生成参照,从而创建内部知识库。被认为与新的输入报告相关的参照被转换为一组构成内部知识库的更高级别的规则。从报告中提取数据时,他们的系统会检索内部知识库中的规则并对其进行分级,以提高与外部知识库的一致性。这一过程通过利用与外部知识相一致的相关提取模式来提高发现检测的有效性。最后,为了解决提取嵌套字段的挑战,他们首先为每个发现提取一个非结构化病变描述文本字段,然后将描述文本解析为结构化字段。![图片]()
利用来自真实世界临床试验的、精心策划的、带有医学专家们注释的数据集,作者们证明了他们的方法可以将关键领域(病变大小、边缘和坚实度)的F1分数平均提高了12.9%,超过了现有的语境学习方法。总之,该文展示了利用大语言模型从医疗报告中提取临床数据的自动化方面的重大进展。通过引入一种结合语境学习和专家派生知识的、经知识调整后的框架,提高了肺部病变信息提取的准确性和可靠性。所提出的方法可减少临床治疗和临床研究中所需的人工工作量,特别是对于肺部相关疾病。尽管存在局限性和需要进一步完善,但这项工作代表着朝着更有效和更准确的临床数据管理系统迈出了重要一步。![图片]()