图片

本文介绍了一个名为“病理聊”的多模态生成式人工智能(AI)助手,旨在为病理学领域提供决策辅助。由多名研究人员共同开发的这个人工智能助手,通过结合病理学专用的视觉编码器、预训练的大语言模型,并在超过456,000条视觉语言指令上进行微调,从而提高其在病理学查询中的准确性和实用性。

 

近年来,计算病理学领域取得了显著进展,主要得益于数字切片扫描的普及、人工智能 (AI) 研究的快速发展、大型数据集的易得性以及高性能计算资源的显著增加。研究人员利用深度学习来解决各种病理学任务,包括癌症亚型分类、分级、转移检测、生存预测、治疗反应预测、肿瘤原发部位预测、突变预测和生物标志物筛选等等。同时,在大量未标注的病理图像数据集上训练的通用视觉编码器模型,可以作为通用的任务无关模型骨干,为提高计算病理学中许多任务的性能和标注效率铺平了道路。

 

图片

随着大语言模型 (LLM) 的兴起,多模态大语言模型 (MLLM) 和更广泛的生成式人工智能领域的快速发展有望为计算病理学开辟一个新的领域,该领域强调自然语言和人机交互作为人工智能模型设计和用户体验的关键组成部分,除了强大的视觉处理能力之外。ChatGPT 等多模态生成式人工智能产品在各种日常、创意和专业用例中展示了令人印象深刻的能力,包括编码、写作、摘要、数据分析、问答、翻译,甚至图像生成,同时通过直观且交互式的用户界面提供访问。尽管已经尝试调查它们在回答医学相关查询方面的性能,但它们在高度专业但重要的解剖病理学子领域中协助专业人员和研究人员的能力仍然未能得到很好探索。然而,交互式多模态人工智能协同助手在病理学中的潜在应用是巨大的。能够理解和响应自然语言中的复杂查询,理论上可以使这种病理学协同助手在人类参与的临床决策、教育和研究的各个阶段充当有用的伙伴。

 

图片

“病理聊”的开发基于以下几个关键技术:

 

1、视觉编码器:使用在超过100万个组织学图像块上预训练的UNI模型,该模型通过自监督学习来提取图像特征。

 

2、多模态预训练:将视觉编码器与病理文本配对,进行进一步的预训练,以对齐图像表示空间与病理文本。

 

3、大语言模型:结合了具有13亿参数的预训练Llama 2语言模型,通过多模态投影模块与视觉编码器连接,形成完整的多模态大语言模型(MLLM)架构。

 

图片

本文的研究人员通过多项测试来评估“病理聊”的性能:

 

1、多项选择诊断问题:“病理聊”在基于组织学图像的多项选择诊断问题上表现出色,无论是仅使用图像还是结合临床背景信息,均优于其他多模态视觉语言人工智能助手和商业解决方案。

 

2、开放式问题回答:通过病理科医生的评估,“病理聊”在开放式问题回答中提供了更准确、更符合病理科医生偏好的回答。

 

图片

“病理聊”的研究成果展示了人工智能在病理学中的良好应用前景,但作者同时也指出了需要进一步研究的方向,包括:

 

●提高与人类意图的一致性:通过人类反馈强化学习(RLHF)等技术,降低人工智能助手的幻觉效应,并捕捉病理学实践中的特定细微差别。

 

●持续训练与更新:随着医学术语和指南的演变,需要定期更新模型以反映最新的科学共识。

 

●扩展功能:支持输入整个千兆像素的全切片图像(WSI)或多个全切片图像(WSI),以提供更全面的诊断背景。

 

图片

本文中,研究人员强调了“病理聊”在处理病理学图像和文本数据时的多模态能力,以及在不同评估设置中的优越性能。此外,他们还探讨了“病理聊”在未来可能的应用场景,包括在低资源环境中辅助病理诊断,以及在教育和研究中提供即时、个性化的专家级指导。随着技术的成熟,“病理聊”有望在病理学领域发挥更大的作用。

 

总之,“病理聊”的开发为病理学领域带来了一个强大的人工智能工具,它不仅能够提高诊断的准确性,还能够在教育和研究中发挥作用,最终目标是实现与病理医生的协同工作,帮助他们做出更准确的诊断决策。