《“虚拟言语治疗师”：基于“临床医生在环”模式的个性化的、监督治疗之AI言语治疗智能体》

一、研究背景与问题提出

口吃是一种常见的神经发育性言语障碍，表现为声音、音节或词语的重复、延长以及言语阻断。研究表明，约5%的儿童在其发育过程中会经历口吃，而成人中的终身患病率约为1%。口吃不仅影响言语的流畅性，还可能导致社交焦虑、自我评价下降和生活质量受损。因此，早期识别与个性化干预对口吃的临床管理至关重要。

然而，传统的口吃评估与治疗高度依赖言语-语言病理医生（SLP）的人工听觉-感知判断。这一过程不仅耗时、昂贵，而且存在显著的评估者内部和评估者间变异性。此外，全球范围内SLP资源分布不均，许多欠发达地区甚至缺乏基本的言语治疗服务。尽管近年来出现了基于深度学习的口吃自动检测技术，但这些技术大多停留在诊断层面，难以转化为真正的个性化、交互式治疗工具。

为此，本文提出并开发了一个名为“虚拟言语治疗师”（VST）的智能体平台。该平台融合了最先进的深度学习口吃分类模型与基于大语言模型的多智能体推理系统，旨在实现口吃的自动化评估与个性化治疗计划的生成，并始终将临床医生置于决策闭环中，确保安全性与临床有效性。

二、系统架构与核心工作流程

VST系统采用“临床医生在环”的设计理念，整体工作流程分为四个主要阶段。

1、预处理、分析与检测阶段

用户通过网页界面上传或实时录制语音样本。系统首先将音频切分为3至5秒的片段（默认4秒，50%重叠），随后调用预训练的口吃检测模型进行分类。该模型基于wav2vec2-XLSR-53自监督学习架构，能够识别包括声音重复、词语重复、延长、阻断和插入语在内的多种口吃类型。同时，系统通过自动语音识别模块生成文本转录，并通过音素识别模块获取音素级信息。

2、智能体化治疗方案生成与迭代优化阶段

检测结果被输入到多代理推理系统中。该系统包含两个核心代理：

●治疗智能体：基于大语言模型（本文选用Gemini 3 Pro），根据口吃类型、音素特征、声学特征等生成初步治疗方案。方案包括治疗目标、理论基础、分阶段训练任务（如轻松起音、轻接触、自愿口吃等）以及家庭练习方案。

●评审智能体：对治疗方案进行系统性评估，涵盖临床合理性、安全性、证据支持度、结构清晰性、可解释性等六个维度。

两个智能体之间形成一个迭代优化循环（默认2轮，最多5轮）。评审智能体提出修改意见，治疗智能体据此修订方案，从而在无需人工介入的情况下逐步提升治疗方案的临床质量。

3、临床医生评审与修订阶段

经过多轮智能体优化后的治疗方案被提交给有执照的SLP进行终审。临床医生可以执行以下三种操作：

●批准：认可计划并准备交付患者；

●拒绝：完全否定该方案；

●修改：提供具体改进建议，系统根据建议再进行一轮自动化修订，然后重新提交评审。

这一机制确保了AI生成的任何治疗建议都在专业临床监督下实施，避免了自动化系统可能出现的错误或不安全建议。

4、方案交付与患者使用阶段

最终获批的治疗方案以结构化JSON格式输出，并通过用户友好的网页界面呈现给临床医生和患者。系统还提供热图展示口吃类型在时间轴上的分布、音素-口吃相关性分析、治疗历史记录等功能，支持临床记录归档与患者跟踪。

三、技术实现与实验设计

1、口吃检测模型

研究团队在SEP-28k-E数据集上训练了基于wav2vec2-XLSR-53的检测模型。实验比较了“冻结特征+浅层分类器”与“全模型微调”两种策略。结果表明，全模型微调显著提升了大多数口吃类别的F1分数，例如声音重复从32.07%提升至43.00%，词语重复从41.23%提升至56.00%，加权平均F1从44.85%提升至67.00%。这表明深度自监督模型在口吃检测任务中具有强大的表示学习能力。

2、大语言模型配置

系统采用Gemini 3 Pro作为核心大语言模型。治疗智能体的温度参数设置为0.3，以引入适当的变化性，使治疗建议更具适应性；评审智能体的温度参数设置为0，以确保输出的一致性与事实准确性。这种差异化的温度设置是系统设计中的一个重要细节，体现了对不同任务目标的精准适配。

3、系统实现

VST系统采用客户端-服务器架构，后端基于PyTorch和“抱抱脸转换模型库”，智能体流程通过LangGraph和LangChain实现。所有模型在服务启动时一次性加载到内存中，避免了每次请求的冷启动延迟。音频分割参数、迭代轮数等均可通过界面配置，便于临床医生根据实际需求调整。

四、临床评估与主要发现

研究团队邀请了一名资深SLP对系统进行了定性评估，使用了16个临床语音样本，涵盖阻断、延长、声音重复、词语重复和插入语等类型。评估聚焦于三个核心维度：

1、诊断一致性：VST输出与临床专家判断的匹配程度；

2、临床工作流可行性：系统是否能无缝融入现有诊疗流程；

3、未满足需求的覆盖能力：系统是否能处理复杂或非典型临床表现。

主要优势

●VST能够生成结构清晰、临床可读的治疗计划，并整合了口吃修正、流畅塑形、回避减少、认知行为疗法等多种当代治疗框架。

●在16个样本中的一个典型案例中，自动检测系统未发现明显的口吃行为，但VST智能体仍识别出可能存在隐性口吃，并据此提出了以情绪和认知干预为主的治疗建议，而非单纯的流畅性训练。这一表现高度符合现代口吃治疗的多维观。

●系统输出的治疗活动具有明确的可操作性和灵活性，临床医生可以根据患者具体情况进行调整，而不必严格遵循模板。

当前局限

●初步生成的治疗计划有时会过早引入流畅塑形策略，而在此之前尚未充分处理患者的恐惧、紧张或回避行为。

●某些情况下，系统对行为动机的解释尚不够精准，需要评审智能体或临床医生进行修正。

这些局限性通过迭代优化和“临床医生在环”机制得到了有效缓解。

五、讨论与临床意义

1、“临床医生在环”模式的价值

VST系统并非试图取代SLP，而是作为一个知识型助手，帮助临床医生更快、更系统地生成个性化治疗方案。它将繁琐的初步规划工作自动化，使SLP能够将更多精力投入到治疗关系的建立、情感支持以及复杂临床判断中。这种人机协同模式在言语治疗领域具有重要的示范意义。

2、可推广性与未来方向

尽管当前系统专注于口吃，但其多智能体架构、“临床医生在环”范式以及基于大语言模型的个性化推理机制具有高度的可迁移性。研究指出，该系统未来可扩展至其他言语和语言障碍，如失语症、构音障碍等。

一个重要的技术方向是集成音频生成模态，使系统不仅生成文本治疗方案，还能实时合成个性化的语音示范，帮助患者更直观地理解并练习目标发音。

3、临床就绪性与下一步研究

研究团队认为，VST系统已具备开展正式临床试验的条件。未来的工作应包括随机对照试验，以验证其在真实临床环境中的疗效、用户接受度及长期治疗收益。此外，系统的公平性、跨语言适应性以及数据隐私保护也需进一步研究。

六、结论

本文提出的虚拟言语治疗师系统是首个将深度学习口吃检测、多智能体大语言模型推理与临床医生在环机制深度融合的智能化言语治疗平台。它能够：

●自动识别多种口吃类型；

●生成基于循证医学的个性化治疗方案；

●通过智能体间迭代优化提升方案质量；

●始终将最终决策权交予临床医生，确保安全与责任。

初步的临床评估表明，该系统生成的计划在临床合理性、安全性和可操作性方面均达到了较高水平。VST不仅有望缓解全球范围内SLP资源短缺的问题，也为AI在言语治疗领域的负责任、可监督、可解释的应用提供了一个开创性的范本。

如需要《“虚拟言语治疗师”：基于“临床医生在环”模式的个性化的、监督治疗之AI言语治疗智能体》（英文，共47页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

Life will always offer reasons to feel hurt or disappointed, but it also offers countless quiet moments of beauty and joy. Where you choose to focus matters. 人生总会赠予你伤痛与失望的事由，却也悄然洒下无数细碎的精美与温柔的喜悦。你选择凝视哪一边，便决定了你眼中的世界是什么模样。早上好！

《“虚拟言语治疗师”：基于“临床医生在环”模式的个性化的、监督治疗之AI言语治疗智能体》

《人工智能语言技术在多语言医疗中的应用：七大挑战与未来展望》

《面向临床医生的电子病历嵌入式AI智能体的端到端评估与治理》

《“医疗AI训练场”：从单轮问答到多轮临床决策智能体》

《“症状AI”：面向日常症状评估的对话式AI智能体》

《绿色屏蔽：以用户为中心的可信赖人工智能新范式》