图片


开年以来,AI火爆医疗圈,超过100家医院官宣接入DeepSeek


然而,在市场预期拉满的同时,一线使用者们却对AI褒贬不一,有医生表示:AI真正起到的作用还很有限。


去年10月,斯坦福大学、哈佛医学院等机构的研究人员在JAMA Network Open上发表了题为Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial的论文。


图片

该研究针对50名医生进行随机临床试验,结果发现使用大语言模型 (LLM) 并没有显著提高医生的诊断推理能力。


造成这一结果的原因并非是AI不够强大,研究结果显示,AI独立使用的效果要比人类医生以及人类医生+AI更好!

一直以来,人们对AI的定位往往是医生的“好助手”,而该研究却否定了强大的AI模型对医生临床诊断的提升作用,人与AI的结合实际上起到了1+1=1的效果


这一发现不禁让人开始重新审视AI在医疗领域的角色定位,是我们对AI的认知还不够深入全面,还是人类医生与AI之间的协作模式还存在优化空间?


毕竟,医疗领域关乎的是生命健康,容不得丝毫马虎。在期待AI能够为医疗事业带来革新的同时,如何实现AI与人类医生的优势互补,将是未来的关键课题


AI强大但没用?


斯坦福大学医学助理教授Jonathan Chen和斯坦福大学生物医学信息学研究中心博士后Ethan Goh是此次研究的发起人。


Chen拥有计算机科学博士学位,多年前曾是一名程序员,对计算机+医学这一交叉领域地研究已有20多年,而Goh则曾担任内科医生,与谷歌、罗氏、三星等公司合作开发数字医疗产品。


图片
图:Ethan Goh(左)和Jonathan Chen(右)

具体而言,他们招募了50名美国执业医师,包括26名主治医师和24名住院医师,专业涵盖家庭医学、内科和急诊医学。


通过随机分组,其中AI组25人使用大语言模型(GPT-4)+传统资源,传统组25人仅使用传统资源(如UpToDate、Google)


最终,所有参与者共完成 244例诊断(AI组125 例,对照组119 例),由3名资深医师盲审给出评分。


结果显示,AI组中位数得分为76%(IQR 66%-87%),传统组为74%(IQR 63%-84%),调整后差异为2个百分点,诊断性能无显著差异。


时间上,LLM组每例耗时519秒(IQR 371-668),传统组565秒(IQR 456-788),差别也不明显。


是因为AI不够强大吗?答案是否定的,研究人员让AI单独表现时,其得分达92%(IQR 82%-97%),显著高于AI组和传统组


研究人员得出结论:与传统资源相比,大语言模型作为强大的诊断辅助工具却并没有提高医生的表现,AI在临床决策上的潜力有待进一步发掘。


当医生遇上AI,协同成痛点


人们往往会认为,只要医生使用AI,就能提升诊疗的准确性与效率。但事实证明,这种假设是错误的。

究其原因,AI的确很强大,但如果医生们并不能熟练掌握,其作用仍然有限。


也正因如此,在文章的最后,研究人员们认为需要“通过重新设计医学教育和实践框架来适应颠覆性的新兴技术”。


在实际工作中,因为不明白如何使用AI而导致效果大打折扣的案例比比皆是。


一项来自麻省理工学院-哈佛大学的联合研究同样指出,AI在图像识别等任务上表现优异,但这些能力未被医生们充分利用。


该研究调查了180名来自美国和越南的放射科医生,结果发现,即便AI的预测准确性高于医生,但医生仍倾向于依赖自身经验或直觉。


这意味着,即使AI是正确的,医生也往往会坚持自己的第一印象,导致他们做出的诊断不太准确。

警方逮捕一名冒充医生进行乳房检查的嫌疑人 | 以色列时报

这暴露出人和AI协同的深层矛盾,如何在医生与AI之间建立起更加和谐的互动关系,成为AI医疗能否真正落地的关键。


这让我想起历史上多起民航空难事故,正是由于飞行员与自动驾驶争夺控制权,最终酿成了不可挽回的结果。


必须承认,自动驾驶极大程度上简化了飞行员的操作,实现了对飞机非常精准的操控,但当电脑结果会和飞行员的判断产生冲突,将直接挑战着航空安全的底线。


而现代民航制度已经发展出一套成熟的方案来应对,通过多层次的安全设计和标准化流程,构建起「人机协同」的决策体系。


同样是人命关天的大事,当AI深入到医疗领域,或许可以学习航空业的经验,在教育培训制度、标准化工作程序、监管框架设计等方面发力,突破信任危机与效率瓶颈。


AI医疗大幕拉开,DeepSeek只是开始


尽管不少医院均表示已经接入DeepSeek,但大部分医院仅仅是停留在Chatbot(聊天机器人)的形式,其实际效果究竟如何需要打个大大的问号。


尤其是在医疗资源极为稀缺的中国,如果AI不能真正提高效率、解决实际问题,医务工作人员将很快抛弃这些工具,风口之后只会留下一地鸡毛。


Can AI answer medical questions better than your doctor? - Harvard Health

DeepSeek的出现,仅仅解决了AI医疗最为初级的问题,其技术价值还没有触及医疗细分场景的核心痛点,而这个则是留给相关公司们的更大机会。


对于当下的AI医疗公司来说,与其在参数、性能上内卷,不如在理解临床需求、匹配实际场景、优化用户体验、提供培训支持等方向上深化,让AI能够融入到医务人员的工作流之中。


未来的成功不在于AI能完成多少项“炫技”,而在于它能否成为诊疗过程中不可分割的智能伙伴。


当DeepSeek完成市场启蒙后,AI医疗真正的战场将在每一次问诊、每一份病历、每一项数据中进行,只有那些最懂患者、最懂医院、最懂中国的公司,才能成为这场深刻的行业革命中的赢家



参考文献:

Hswen Y, Rubin R. An AI Chatbot Outperformed Physicians and Physicians Plus AI in a Trial—What Does That Mean? JAMA. 2025;333(4):273–276.

Agarwal, Nikhil and Moehring, Alex and Rajpurkar, Pranav and Salz, Tobias, Combining Human Expertise with Artificial Intelligence: Experimental Evidence from Radiology (July 2023)



—The End—

推荐阅读