图片

这篇文章介绍了一个自主式人工智能(AI)智能体,用于肿瘤学临床决策。该智能体利用GPT-4大语言模型(LLM)并整合了多种精确肿瘤学工具,以支持个性化临床决策。文章强调了当前大语言模型在医疗领域,特别是肿瘤学领域的应用潜力,同时也指出了其局限性,并提出了一种结合大语言模型与多种专业工具的解决方案。

背景:

肿瘤学临床决策非常复杂,需要整合多模态数据和多领域专业知识。虽然大语言模型(如GPT-4)展现出强大的推理和问题解决能力,并在医学领域取得了显著进展(例如,通过美国医师执业考试),但其在处理多模态医疗数据方面的能力仍有待提高。现有的生物医学基准测试和评估数据集通常只关注单一任务,无法完全反映现实世界中多步骤推理和个性化决策的复杂性。虽然一些多模态AI系统已经出现,但它们通常只针对一两种数据模态,并且受限于封闭式问答格式。

图片

方法:

研究人员开发了一个自主式AI智能体,该智能体将GPT-4与多种精确肿瘤学工具集成在一起。这些工具包括:

用于从组织病理学切片检测微卫星不稳定性KRASBRAF突变的视觉转换模型:该模型能够直接从常规组织病理学切片中检测遗传改变。

用于放射影像分割的MedSAM模型:该模型能够对医学影像进行分割,提取肿瘤区域信息。

基于网络的搜索工具:包括OncoKBPubMedGoogle,用于检索最新的肿瘤学信息和治疗指南。

计算器:用于进行简单的计算,例如肿瘤大小变化的计算。

医学指南数据库:包含约6800份医学文献和临床评分,为模型的推理提供依据。

AI智能体能够自主选择并应用合适的工具,根据患者的临床信息、影像学数据和基因组数据,生成个性化的治疗方案。研究人员使用20个真实的、多维度的肿瘤患者病例对该AI智能体进行了评估。评估指标包括AI智能体使用工具的准确性、临床结论的正确性以及对相关肿瘤学指南的准确引用。

图片

结果:

结果表明,该AI智能体在以下方面取得了显著的成果:

工具使用准确性:64次工具调用中,AI智能体正确使用了56次(87.5%)。

临床结论准确性:20个病例中,AI智能体得出了91.0%的正确临床结论。

指南引用准确性:257次引用中,75.5%的引用是准确的。

与单独使用GPT-4相比,该AI智能体的临床决策准确性从30.3%大幅提高到87.2%。该AI智能体能够处理复杂的工具使用链,将一个工具的输出作为另一个工具的输入,从而进行多步骤推理。它还能处理患者描述中存在矛盾信息的情况,例如基因突变报告与工具检测结果不一致的情况。

图片

讨论:

研究结果表明,将精确医学工具与大语言模型相结合,能够显著增强其解决问题的能力。 这种方法具有以下优点:

提高准确性和可靠性:通过整合多种工具和知识库,能够生成更准确和可靠的临床决策。

方便知识更新:只需更新数据库中的文档或进行网络搜索,即可快速更新医学知识,无需重新训练核心模型。

减少幻觉:通过检索增强生成机制,能够减少大语言模型的幻觉现象,提高答案的准确性。

提高透明度:通过提供相关的文献引用,提高了决策过程的透明度,方便事实核查。

图片

局限性:该研究的样本量较小,未来需要进行更大规模的验证研究。此外,还需要进一步优化和验证各个工具,并探索更先进的模型和架构,例如能够处理三维医学影像的模型以及动态调整智能体配置的模型。数据保护和法规遵从也是需要考虑的重要因素。

结语:

本研究展示了一种基于大语言模型的多工具协同AI智能体,该 AI 智能体通过推理引擎+工具库+知识库” 的三元架构,突破了传统大语言模型的知识局限,在精准肿瘤学领域实现了从患者数据感知、工具调用、信息检索到决策输出的全流程自主操作。其关键优势在于:

●安全、精准且透明的临床辅助能力;

●可拓展、可更新的系统架构;

●较高的引用准确率与工具适配能力。

该系统为未来AI在个体化医疗领域的落地提供了可行路径,也为建立可信赖的医学AI助手奠定了基础。

如需要《肿瘤学临床决策自主人工智能智能体的开发与验证》(英文,共18页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。

图片

图片


图片


★ 每日鲜鸡汤  ★

A person is richest when they are content, and happiest when they cherish what they have. 人在什么时候最富有?人在知足的时候最富有。人在什么时候最幸福?人在珍惜的时候最幸福。早上好!


图片