图片

本文提出并构建了一个名为“临床标杆”的综合评估基准,用于评估大型语言模型(LLMs)在临床环境中的应用。

 

大语言模型因其强大的自然语言处理能力,在医疗领域引起了广泛关注。然而,现有的研究多集中在封闭式问答任务上,而临床决策往往涉及开放性问题,没有预设答案选项。因此,该研究通过收集现有数据集并构建新的复杂临床任务,以更贴近真实世界临床实践的方式来评估大语言模型的性能。

 

图片

研究团队首先收集了11个现有数据集,涵盖了临床语言生成、理解和推理等多种任务。此外,他们还构建了6个新的复杂临床任务数据集,包括转诊问答、治疗推荐、住院小结、患者教育、新药物的药理学问答和药物相互作用等。为了提供全面而综合的评估基准,研究团队选择了22种不同的大语言模型(包括通用大语言模型和医学专用大语言模型)在零样本和少样本设置下进行评估,使用了多种评估指标,包括准确率、ROUGE-L评分和F1分数。

 

研究结果显示,尽管大语言模型在封闭式问答任务上表现出色,但在开放式任务、长文档处理和新药理解等场景中表现不佳。这表明大语言模型在临床应用中仍面临挑战,尤其是在处理非结构化和开放式临床问题时。此外,本研究还邀请了医学专家对大语言模型生成的内容在事实性、完整性、偏好和安全性四个维度上进行了评估,指出了大语言模型在提供临床有用信息方面的潜力和局限性。

 

图片

总之,本研究所提出和构建的“临床标杆”为评估大语言模型在临床应用中的性能提供了一个重要的基准测试平台,为开发更强大的医疗大语言模型提供了宝贵的见解和指导。未来,需要进一步研究和开发更强大的大语言模型,以更好地辅助临床决策,并确保其安全、可靠和负责任的使用。