图片

这篇题为《利用大语言模型实现精确的鉴别诊断》的文章探讨了大语言模型(LLM)在辅助和改进临床医师鉴别诊断过程中的潜力。研究人员开发了一个名为“阿米”的大语言模型,该模型针对临床诊断推理进行了优化,并评估了其单独或作为临床医师辅助工具的能力。

本研究采用了一组来自《新英格兰医学杂志》“临床病理大会”的302个具有挑战性的真实世界病例报告。这些病例涵盖了多种医学专业,被认为是诊断难题,对医生的诊断能力提出了很高的要求。该研究将临床医生随机分配到两个辅助组:一组使用搜索引擎和标准医学资源;另一组除了这些工具外,还使用“阿米”。所有临床医生都在使用辅助工具之前提供了未经辅助的基线鉴别诊断。

图片

结果显示,“阿米”的独立性能超过了未经辅助的临床医生。top-10准确率方面,“阿米”达到了59.1%,而未经辅助的临床医生仅为33.6%更重要的是,“阿米”显著提高了临床医生的诊断能力。使用“阿米”辅助的临床医生,其鉴别诊断质量评分(top-10准确率)为51.7%,显著高于未经辅助的临床医生和仅使用搜索引擎的临床医生。此外,“阿米”辅助的临床医生得出的鉴别诊断列表比未经辅助的临床医生更全面。
“阿米”在生成包含正确诊断的鉴别诊断列表(top-10准确率)和将正确最终诊断识别为列表中最可能的诊断(top-1准确率)方面都取得了令人印象深刻的成果。在自动模型评估中,“阿米”生成的鉴别诊断列表的质量和准确性显著优于当时最先进的GPT-4模型。平均而言,临床医生在使用“阿米”界面时平均提出了2.92个问题,而“阿米”的平均回复包含237.60个单词。在搜索条件下,最常用的工具是UpToDate、谷歌搜索和PubMed

图片

本研究还比较了“阿米”与GPT-4的性能。由于评估者不同,无法直接比较top-10准确率。但使用自动化指标在70个重叠病例的子集上进行比较,“阿米”在top-n准确率方面(n>1)表现更好,尤其是在n>2时差距最为明显。这表明“阿米”生成的鉴别诊断在质量和全面性方面可能有了显著改进。

本文讨论了“阿米”作为独立诊断工具和辅助工具的优缺点。虽然“阿米”在独立性能方面优于未经辅助的临床医生,但作者谨慎地指出,《新英格兰医学杂志》“临床病理大会”病例代表的是诊断难题,而非日常临床工作流程的真实反映。因此,将研究结果外推到“阿米”作为独立诊断工具的效用方面需要谨慎。然而,“阿米”作为辅助工具,显著提高了临床医生的诊断准确性和鉴别诊断列表的质量、适当性和全面性。

图片

本文也指出了研究的局限性。《新英格兰医学杂志》“临床病理大会”病例报告的格式与临床医生在临床会诊开始时评估患者的方式存在重要差异;病例报告是经过精心设计的谜题,而现实中的临床病例可能信息不完整或不连贯。此外,对鉴别诊断质量的评估并非易事,主观判断可能会导致结果差异。“阿米”只使用了病例报告的文本部分,而临床医生可以访问图像和表格数据,这可能会影响结果。最后,本研究没有充分探索临床医生对模型输出的信任程度、对模型局限性的理解以及模型在不同临床场景中的适用性。

图片

尽管存在局限性,这项研究仍然为大语言模型在临床诊断中的应用提供了有价值的见解。“阿米”作为辅助工具,在提高临床医生的诊断准确性和效率方面具有显著潜力。然而,在将“阿米”应用于实际临床环境之前,还需要进一步的研究,以评估其在各种临床场景中的有效性和安全性,并解决其潜在的局限性,例如幻觉和偏见问题。未来的研究应更严格地探索大语言模型如何在各种具体的临床场景中增强临床医生的鉴别诊断能力,以及如何优化人机协作以最大限度地提高诊断准确性和效率,同时确保患者安全和公平。此外,还需要关注大语言模型在不同临床医生群体中的适用性,以及如何设计有效的用户界面和培训方案,以促进大语言模型的有效使用和避免误用。
如需要《利用大语言模型实现精确的鉴别诊断》(英文,共19页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。

图片


图片


图片


★ 每日鲜鸡汤  ★

Take life day by day, and be grateful for the little things. Don't get caught up in what you can't control. Focus on the positive. 且将生活细细品,珍视点滴小确幸。莫为无法掌控之事烦忧,心向美好自逍遥。早上好!

图片