图片

越来越多的研究开始探索人工智能对话聊天机器人在健康领域的潜力。《柳叶刀》(The Lancet)发表的观点文章指出,目前新一代聊天机器人的生成能力已经超越了上一代基于规则的聊天机器人和精神健康应用程序,在获取医疗知识、整合信息、个体化定制治疗方案方面展现出更大的优势,并有可能扩大在精神健康服务中的应用。然而,在评估人工智能聊天机器人的潜力时,应注意评估证据质量,关注长期影响,并关注医疗责任问题。识别图中二维码或点击文末阅读原文,查阅原文。


随着越来越多的研究开始探索人工智能(artificial intelligence, AI)对话聊天机器人在健康领域的潜力,这些工具显然可以提供一些早期数字医疗手段所不具备的优势。新一代聊天机器人的生成能力已经超越了上一代基于规则的聊天机器人和精神健康应用程序,在获取医疗知识、整合信息、个体化定制治疗方案方面展现出更大的优势,并有可能扩大在精神健康服务中的应用。今年早些时候,首个用于治疗精神障碍的生成式AI聊天机器人(Therabot)的随机试验已被报道。该研究在患有重性抑郁障碍、广泛性焦虑障碍或存在进食障碍风险的成年人中,将Therabot干预与等候名单对照组(waiting-list control,即未经治疗的对照组)进行了比较。结果显示,在第4周和8周时,Therabot干预组的症状有所改善。然而,仍需要更大样本量的试验和进一步研究,来确认该干预和类似聊天机器人干预的有效性与普适性。


在这一变革性潜力面前,保持对AI炒作警惕的同时,识别并支持最有前景的应用尤为重要。由于这一领域变化迅速,即使是美国食品药品监督管理局(US Food and Drug Administration)等卫生监管机构也面临挑战。我们提出了三点考虑因素,有助于在评估AI聊天机器人的潜力时做出明智决策。


第一,任何主张都应结合其支持证据的质量进行评估。过去十年,对智能手机应用程序开展数字医疗的研究表明,仅将应用程序与等候名单对照组进行比较存在一定风险。在缺乏安慰剂或阳性对照(active control)组的情况下进行干预研究仍有重要意义,但应被视为像早期药物研究一样,其目的是探索可行性和安全性,而非有效性。目前已有多种在线工具、应用程序、增强现实(augmented reality)、虚拟现实(virtual reality),和其他AI干预措施,可以作为阳性数字对照组(active digital control)。因此,仅将AI聊天机器人与空白对照或等候名单对照组比较,可能会受到质疑。尽管选择合适的数字对照组可能较为复杂,但现有的相关指南可以提供帮助。


第二,需要关注AI工具的长期影响虽然实现即时和短期的症状缓解很重要,但大多数医疗卫生保健需求都需要具备长期效益。同样,对AI工具在节省成本方面的经济学分析,通常也围绕其提供长期结局的潜力进行预测。如今的数字疗法和健康应用程序,在实现长期疗效以及维持用户持续参与度方面面临挑战。AI工具有潜力提供有效且无需持续参与的干预措施,或能通过增强用户粘性来实现持续干预与支持。这些领域仍需进一步研究。尽管此类研究耗时更长且成本更高,但在评估“AI干预在医疗卫生保健中将发挥何种作用”非常重要。缺乏长期结果的研究仍然具有重要价值,但在定义有效性方面应被视为探索性研究。


第三,任何关于“生成式AI具有治疗作用”的主张,都必须放在更广泛的治疗背景下,包括医疗责任问题。如果AI干预无法承担与临床医疗相关的法律责任和风险,那么它就无法真正提供医疗服务目前,AI在精神健康中的应用仍需医疗卫生专业人员监测患者安全。事实上,人类需承担治疗相关责任和风险这一点,恰恰表明AI本身尚不能独立提供医疗服务。因此,法律和监管领域的发展,对于确保AI工具在医疗卫生保健领域真正发挥作用至关重要。在“没有将聊天机器人置于实际医疗卫生环境中”的情况下所做的研究及其随之而来的风险,在评估成本效益(cost-effectiveness)和医疗路径中人类角色方面,其参考价值仍然有限。未来还需进一步探索此类AI医疗服务的实际交付模式。


AI具备非凡的潜力,但仍需扎实的证据支持其在医疗环境中的效力、有效性、安全性和成本效。过去一代数字健康创新的经验表明,在早期阶段就提出关键问题、建立严谨的证据体系,是实现临床医疗真正转型的必由之路(见图)。尽管AI前景广阔,但仍需开展进一步研究确定其对促进精神健康的效益和安全性。END

确定AI临床潜力时应考虑的因素

更广泛的背景

  • Al是否承担医疗和法律风险?

  • 是否有成本效益证据?

  • Al与医疗卫生保健互相整合还是互相割裂?

临床影响

  • Al对不同人群是否均易于使用?

  • Al在真实世界中是否具有吸引力?

  • 临床效果能维持多久?

证据质量

  • 有何偏倚风险?

  • 是否存在剂量效应?

  • 是否设有阳性数字对照?

图片

作者利益冲突声明

John Torousa ∙ Eric J Topolb

JT has received unrelated past research support from Otsuka and current support from the Argosy Foundation and is a scientific adviser to Boehringer Ingelheim. EJT is supported by the NIH/National Center for Advancing Translational Sciences grant UL1TR001114 and is an adviser to Tempus Labs, Pheno AI, and Abridge.


Further reading

[1]Goldberg SB, Sun S, Carlbring P, Torous J. Selecting and describing control conditions in mobile health randomized controlled trials: a proposed typology. NPJ Digital Med 2023; 6: 181

[2]Heinz MV, Mackin DM, Trudeau BM, et al, Randomized trial of a generative AI chatbot for mental health treatment. NEJM AI 2025; published online March 27. https://doi.org/10.1056/AIoa2400802

[3]Na H, Hua Y, Wang Z, et al. A survey of large language models in psychotherapy: current landscape and future directions. arXiv 2025; published online Feb 19. https://doi.org/10.48550/arXiv.2502.11095 (preprint)

[4]Torous J, Firth J. The digital placebo effect: mobile mental health meets clinical psychiatry. Lancet Psychiatry 2016; 3: 100–02

[5]Warraich HJ, Tazbaz T, Califf RM. FDA perspective on the regulation of artificial intelligence in health care and biomedicine. JAMA 2025; 333: 241–47



Copyright © 2016 Kathleen Finlay/Cultura/Science Photo Library

中文翻译仅供参考,所有内容以英文原文为准。

https://doi.org/10.1016/S0140-6736(25)01237-1


相关阅读

图片


推荐阅读


柳叶刀 | 生成式AI能够进行临床推理吗?

柳叶刀-数字医疗 | AI辅助筛查显著提高癌症检出率,双人读片或将成为历史

柳叶刀-数字医疗 | AI辅助心电图有助于筛查心血管风险较高的女性


点击阅读原文,查阅论文原文

关注柳叶刀服务号,探索更多科研服务!