图片

随着大规模生成模型在短短五年内从原型研究发展为生产级服务,自然语言界面被引入到许多曾被认为过于专业而难以实现自动化推理的领域,医疗财务便是其中之一。在大多数经合组织国家,每个住院病例都会被映射到一个诊断相关分组(DRG)代码,该代码决定了医院的报销金额。尽管医疗大语言模型(LLM)的研究激增,但目前尚无公开基准测试针对这一社会技术瓶颈,这为AI业界和医院管理者带来了信任问题。本文旨在填补这一空白,通过发布首个公开基准测试集,评估大语言模型在DRG分类逻辑上的推理能力。

北欧诊断相关分组(北欧DRG)分类系统是北欧国家共享的病例组合框架,用于将住院病例聚类为具有可比资源消耗的组别,从而支持跨机构、跨地区和跨年度的成本、结果和效率透明化比较。

图片

文章指出,虽然大语言模型在自然语言处理领域取得了显著进展,并已开始应用于临床编码和决策支持等医疗领域,但目前尚缺乏一个公开的基准测试来评估大语言模型处理DRG规则集的能力。北欧DRG系统是一个复杂的、多语言的规则集,它将住院病例映射到DRG代码,从而确定报销金额。该规则集对于非专家来说并不透明,并且每年都会通过冗长的委员会流程进行修订。因此,缺乏一个公开的基准测试会阻碍AI业界和医院管理人员对可信赖的决策支持系统的开发和评估。

为了解决这一问题,研究人员开发了“北欧DRG-AI-基准测试集”。该基准测试集包含三个主要部分:(1)包含约20个相互关联的表格的定义表,涵盖DRG逻辑、ICD和手术分类代码、年龄/性别细分和国家标识;(2)描述实际治理流程的专家手册和变更日志模板;(3)包含14个病例组合任务的提示包,涵盖代码查找、跨表推理、分组特征、多语言术语和质量保证审计。所有这些资源都已公开发布在GitHub上,方便研究人员使用。

图片

本文详细描述了“北欧DRG-AI-基准测试集”的设计和开发过程。它遵循设计科学研究 (DSR) 范式,结合了严格的探究和人工制品构建,以解决实际问题并促进理论发展。研究人员首先确定了缺乏病例组合基准测试作为关键的应用评估差距,然后制定了可重复大语言模型测试平台的目标,设计并构建了北欧DRG资源套件,通过14个任务场景演示了其实用性,并使用选定的大语言模型评估了基准性能,最后通过公开访问发布来传播结果。在与领域专家的两次快速构建评估周期中,确保资源套件与现实世界的报销流程保持一致。

文章还回顾了相关的研究工作,包括使用大语言模型预测美国MS-DRG、内化独立分组规则以及对大语言模型理解DRG逻辑的研究。然而,这些研究大多集中在单一国家系统,将多表病例组合逻辑简化为平面分类任务,并依赖于无法重新分发的私有数据集。因此,业界仍然缺乏一个公开的、多语言的基准测试,能够捕捉病例组合系统(如北欧DRG)的完整规则图,包括跨表连接、治理文档和年度变更日志工作流程。

图片

“北欧DRG-AI-基准测试集”的基准测试结果显示,五种最先进的大语言模型在九个可自动验证的任务上的表现差异显著。OpenAIo3模型得分9/9GPT-4oo4-mini-high分别得分7/9,而Gemini 2.5 ProGemini 2.5 Flash分别仅得分5/93/9。这些结果证实,“北欧DRG-AI-基准测试集”揭示了在通用大语言模型排行榜上隐藏的特定领域优势和劣势,从而为未来在医院报销融资中可信赖的自动化研究提供了可重复的衡量标准。

本文进一步评估了“北欧DRG-AI-基准测试集”,以验证其是否满足设计目标。评估结果表明,该基准测试集的数据集完整性高,任务对齐良好,并且具有良好的可扩展性和可持续性。其模块化设计允许研究人员根据实验需要选择不同的数据集配置,例如,可以使用轻量级的芬兰语子集进行快速原型设计,然后扩展到完整的表格和治理文档,以测试思维链推理和跨文档接地。

图片

最后,文章讨论了“北欧DRG-AI-基准测试集”的传播策略,包括公开的GitHub存储库、清晰的贡献指南以及学术交流。通过这些努力,“北欧DRG-AI-基准测试集”从静态数据发布转变为一个活跃的业界资源,完成了设计科学研究方法中概述的循环。文中还包含了示例提示词,以促进可重复的实验。这些提示词涵盖了各种用例场景,例如检查完整定义表、查询诊断类别或起草技术变更请求,并带有难度标签(简单、中等、困难),以帮助研究人员建立基线并揭示不同模型在更现实的临床编码工作负载下的失败模式和改进机会。总之,“北欧DRG-AI-基准测试集”为大语言模型在医疗资金报销领域的应用研究提供了一个重要的、可重复的基准测试平台,促进了该领域的可信赖自动化发展。

如需要《大语言模型的北欧DRG AI基准测试集》(英文,16页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。

图片

图片


图片


★ 每日鲜鸡汤  ★

Don't be surprised if your support doesn't come from familiar faces. The Universe will place strangers in your life to take you to higher places. 莫讶援手非故人,天意常遣陌路临。或为提灯引路者,助你登高入云深。早上好!

图片