图片

这篇文章介绍了“样本-功效AI”,一个专门的智能体框架,用于自动化临床试验设计中的样本量和功效分析。该框架旨在解决临床试验设计中样本量和功效计算的复杂性和可及性问题,这些计算通常需要专门的统计专业知识,这使得许多研究人员在早期研究规划阶段感到不便。

 

“样本-功效AI”的核心是其三智能体框架:功能智能体、计算智能体和报告智能体。功能智能体充当感知和推理模块,根据用户的自然语言输入(例如,研究描述、假设和参数)识别合适的统计检验和相应的R函数。它通过逻辑推理和决策过程,从预定义的R函数库中选择最合适的函数,确保所选统计方法与正确的计算工具精确匹配。

 

图片

计算智能体作为行动模块,利用函数调用方法执行功能智能体选择的R函数。它从用户的输入中提取必要的参数(例如,效应量、显著性水平、功效、备择假设等),然后使用选定的R函数进行精确计算。计算智能体还包含一个验证机制,检查每个步骤的输入和输出是否符合函数的要求,并对参数范围之外的值或意外数据类型等问题进行详细的错误报告和建议。

 

报告智能体则充当展示模块,将分析结果编译成一份全面且用户友好的报告。该报告包含研究目标、假设、所选统计模型、基本假设和详细的分析结果,并提供PDF和Word格式的下载,方便用户共享、打印或将其结果整合到研究文档中。

 

图片

为了评估“样本-功效AI”的性能,研究人员将其与直接使用各种先进的大语言模型进行了比较,并针对六种常见的临床试验场景进行了测试:单样本t检验、双样本t检验、配对t检验、单因素方差分析、卡方检验和Cox比例风险模型。结果表明,直接使用大语言模型进行样本量和功效计算存在显著偏差,尤其是在卡方检验和Cox比例风险模型等复杂场景中。这凸显了大语言模型在处理复杂的数学计算和领域特定要求方面的局限性。

 

相比之下,“样本-功效AI”在所有场景中都实现了100%的准确率,这归功于其三智能体框架的协同工作:功能智能体正确选择统计方法;计算智能体进行精确计算;报告智能体生成清晰全面的摘要。这表明,将大语言模型集成到专门的智能体框架中,可以克服直接使用大语言模型的局限性,确保样本量和功效计算的准确性和可靠性。

 

图片

文章还详细评估了“样本-功效AI”系统的三个智能体的性能。功能智能体在识别合适的统计模型和选择相应的R函数方面实现了100%的准确率;计算智能体在提取必要参数和计算样本量和功效估计方面也达到了100%的准确率;报告智能体在生成全面且用户友好的报告方面同样取得了100%的准确率。这些结果表明,“样本-功效AI”的三智能体框架具有很强的鲁棒性,能够可靠地处理各种临床试验设计场景。

 

文章也讨论了“样本-功效AI”的优势和局限性。其优势在于它结合了大语言模型的自然语言处理能力和统计软件的精确性,自动化了复杂的统计任务,并确保输出结果的可靠性和可重复性。它生成的全面报告进一步提高了其实用性,使研究人员能够轻松解读和分享结果。此外,该框架使用了开源的Llama 3.1 70b 模型,确保了工具的可访问性。

 

然而,文章也承认了一些局限性。首先,测试的场景仅限于六种常见的临床试验设计;其次,该框架依赖于预定义的R函数,可能无法涵盖所有统计方法或研究设计;最后,该框架依赖于大语言模型,可能会引入大语言模型本身固有的偏差或局限性。未来的工作应该扩展评估范围,包括更复杂的场景,并整合其它统计软件包或自定义R脚本,以提高框架的通用性和鲁棒性。

 

图片

总之,“样本-功效AI”代表了临床试验统计规划方面的一项重大进展。它通过结合大语言模型的优势和基于智能体的框架,使统计规划更易于访问、更高效且更可靠。虽然人类专业知识对于确保临床研究的科学严谨性仍然至关重要,但“样本-功效AI”有潜力为资源有限或缺乏专业知识的研究人员提供先进的统计工具,从而促进临床试验研究的效率和质量。该工具的开源和易用性进一步增强了其价值,有望成为临床试验设计领域中一个有益的补充。