图片

这篇题为《用于评估健康语言模型的可扩展框架》提出了一种名为自适应精确布尔评估的新框架,用于更有效、更经济地评估应用于医疗保健领域的开放式生成式大语言模型。该框架旨在解决现有评估方法在可扩展性、一致性和效率方面的局限性。

 

文章首先指出,大语言模型在医疗保健领域展现出巨大的潜力,可以处理和推理多模态健康数据,应用于医疗问答、鉴别诊断、电子病历推理和生物医学研究发现等多个方面。大语言模型的应用也扩展到消费健康领域,例如睡眠和健身指导、可穿戴设备数据提取、症状检查器和临床检查对话等。然而,对大语言模型,尤其是开放式文本应答的评估仍然是一个挑战。现有的评估方法,特别是那些依赖于专家人工评估的方法,存在成本高、效率低、可扩展性差等问题。人工评估主观性强,容易受到人为因素(例如不同的视角、潜在的偏差和不一致性)的影响,难以实现大规模的评估。

 

图片

为了解决这些问题,本文提出了一种基于自适应精确布尔评估框架。该框架的核心思想是将复杂的、开放式或李克特量表式的评估标准分解成一系列更细粒度的布尔型(是/否)问题。这种精确布尔评估方法通过提高评估标准的粒度,减少了评估者主观解释的空间,从而提高了评估的一致性和可靠性。文章指出,尽管精确布尔评估包含的评估问题数量比传统的李克特量表多得多,但它仍然能够显著提高评估者之间的一致性,这表明细粒度的评估标准能够有效地减少主观解释,从而促进更一致和可靠的评估。
为了进一步提高效率,本文又提出了自适应精确布尔评估方法。该方法利用大语言模型作为零样本分类器,根据具体的用户查询和大语言模型生成的应答,动态地筛选出最相关的评估标准,从而减少了评估者需要回答的问题数量。实验结果表明,自适应精确布尔评估方法在保持高一致性的同时,将评估时间缩短了50%以上,显著提高了评估效率和可扩展性。文章还比较了人工自适应精确布尔评估和自动自适应精确布尔评估,结果表明自动方法能够在保持评估信号一致性的同时,大大提高评估效率。

 

图片

本文还对不同大语言模型的性能进行了基准测试,包括Gemini 1.5 ProGemini 1.5 FlashGemini 2.0 Flash/ProGPT-4oClaude 3.5 Sonnet等。通过在内分泌学和心脏病学认证考试题上进行测试,选择Gemini 1.5 Pro作为主要实验模型。这为后续实验提供了一个性能可靠的基准。

 

为了验证该框架的有效性和鲁棒性,本文利用新西兰一个名为可穿戴设备代谢健康研究的大规模真实数据集进行了实验。该数据集包含了参与者的可穿戴传感器数据和血液生物标志物检测结果。研究人员通过故意去除关键生物标志物数据,模拟大语言模型忽略患者个人健康数据的情况,比较了在不同评估框架下,在去除关键生物标志物数据前后,自动评估结果的一致性。结果表明,精确布尔评估框架对个人数据的缺失更为敏感,能够更准确地检测到应答质量的差异,而传统的李克特评估量表则表现出较低的敏感性。

 

图片

文章最后总结了该框架的主要贡献:提出了一种可扩展的自适应精确布尔评估框架,显著提高了评估的一致性和效率,并降低了评估成本;该框架能够有效地处理包含多模态数据的个性化健康查询的大语言模型应答;该框架能够利用大语言模型自动筛选出最相关的评估标准,进一步提高效率;该框架在真实数据集上的实验结果验证了其有效性和鲁棒性。文章也指出了该框架的一些局限性,例如研究仅在一个领域进行了用户研究,并且使用了合成用户角色。未来的工作将扩展到更多领域和用户角色,并探索更先进的自动评估方法。文章强调,这项研究的重点是评估框架本身,而不是对所讨论的健康语言模型进行医疗设备或解决方案的认证。

图片

总之,这篇文章提出了一种创新的大语言模型评估框架,该框架具有可扩展性、一致性和高效性等优点,为在医疗保健领域大规模、有效地评估大语言模型提供了新的方法和工具。该框架的提出,对于推动大语言模型在医疗保健领域的应用具有重要意义。