图片

这篇题为《利用大型语言模型作为评判者实现医疗人工智能文本生成的自动化评估》的文章,探讨了在医疗领域自动化评估人工智能生成文本(特别是临床摘要)质量的方法。文章指出,电子病历中包含的海量临床信息给医护人员带来了巨大的认知负担,而大语言模型生成的摘要有望缓解这一问题,能提供清晰、可操作的见解。然而,确保这些大语言模型生成摘要的准确性和安全性至关重要,这使得对其质量进行评估成为必要。传统的由人类专家进行的评估,虽然被视为黄金标准,但耗时且成本高昂,无法满足快速发展的生成式人工智能技术的评估需求。

图片

为了解决这一评估瓶颈,该研究引入并验证了一种自动化评估真实世界电子病历多文档摘要的方法,即使用大语言模型作为评估者,称之为大语言模型判官本研究的核心在于利用大语言模型本身作为评估者,利用其强大的上下文理解和推理能力来自动化传统上由人类专家进行的评估过程。研究人员选择了经验证的“医生文书摘要质量工具”作为基准,该工具包含九个属性:引用、准确性、完整性、实用性、组织性、可理解性、简洁性、综合性和污名化。“医生文书摘要质量工具”能够捕捉到大语言模型特有的现象,例如幻觉和遗漏。
研究人员系统地评估了最先进的开源和闭源 大语言模型作为评判者,使用了不同的提示策略,包括零样本、少样本、监督微调、直接偏好优化和多智能体框架。结果表明,GPT-o3-mini模型在单一大语言模型判官框架中表现最佳,其与人类评估者的组内相关系数达到了 0.818,并且与人类评估者的中位数评分差异为0。这意味着该大语言模型的评估结果与人类专家高度一致。更重要的是,GPT-o3-min完成评估的速度远快于人类评估者,平均只需22秒,而人类评估者平均需要600秒,效率提升显著。

图片

研究还评估了多智能体框架 (“大语言模型判官),其中多个大语言模型参与讨论并达成共识。虽然多智能体框架在与人类评估者的一致性方面不如单一 大语言模型,但它在模拟人类评估者之间的差异方面表现更好,这表明多智能体框架可以更有效地捕捉人类评估者之间的差异性。最佳的多智能体方法使用了 GPT-o3-mini作为协调者和高低评分智能体,其组内相关系数为0.768
为了进一步验证大语言模型判官框架的有效性,研究人员进行了跨任务验证,使用了问题列表生物医学自然语言处理2023 共享任务的数据集。结果显示,GPT-o3-mini模型在该任务上的组内相关系数为 0.710,再次证明了其较高的可靠性。

图片

本文还对不同大语言模型的推理成本进行了分析,结果表明GPT-o3-mini的单次评估成本平均仅为5美分,而人类评估者的成本则要高得多。此外,论文还对推理模型和非推理模型的性能进行了比较,结果表明推理模型在需要高级推理和领域专业知识的评估方面表现更好。
文章最后讨论了该研究的局限性,例如数据来源的局限性以及计算资源的限制。尽管如此,这项研究仍然为自动评估医疗中人工智能文本生成提供了一种高效且可靠的方法,为生成式人工智能在医疗领域的应用提供了重要的技术支持和评估工具。该研究强调了提示工程在大语言模型判官框架中的重要性,并指出清晰、精确的评估标准对于大语言模型获得高质量评估结果至关重要。该研究成果有望显著提高生成式人工智能在医疗中的应用效率和安全性,并为未来研究提供了宝贵的经验和方向。文中提到的代码和数据集将在未来公开发布,这将进一步促进该领域的合作和发展。

如需要《利用大型语言模型作为评判者,实现医疗人工智能文本生成的自动化评估》(英文,共47页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。

图片


图片


图片


★ 每日鲜鸡汤  ★

LIFE IS full of surprises. When your day is wonderful. cherish it. When it becomes difficult, stay strong. There are no guarantees on how many days you have left so be grateful for each and every one of them. 人生百味,惊喜与挑战并存。逢佳日,当醉心其美;遇逆境,亦需坚韧以持。天命难测,余日无定,故当珍惜朝夕,心怀感恩度春秋。早上好!

图片