这篇文章介绍了“情绪智能体”,一个用于评估和减轻人机交互中精神健康风险的多智能体AI框架。该框架的出现源于对大语言模型(LLM)驱动的AI角色可能对心理脆弱人群造成安全隐患的担忧,尤其是在那些患有精神疾病的个体身上。“情绪智能体”旨在通过模拟和干预来确保更安全的人工智能体验。

文章首先指出,虽然基于大语言模型的聊天机器人有望在精神健康支持方面发挥作用,但它们并非专门为治疗用途而设计,并且可能对处于困境中的用户做出不当甚至有害的回应,甚至加剧用户的痛苦,尤其是在悲观、病态或自杀性对话中。美国佛罗里达州一个14岁男孩因与Character.AI上的AI聊天机器人进行大量对话后自杀的悲剧事件,突显了在AI驱动的平台中,特别是那些易受伤害的个人可以访问的平台中,迫切需要强大的安全措施。

为了解决这些风险,“情绪智能体”框架应运而生。它由两个主要组件组成:“情绪评估”情绪卫士

“情绪评估”是一个智能体评估工具,用于评估任何对话式AI系统诱发精神压力风险的能力。它包含一个虚拟用户智能体,该智能体整合了针对精神健康障碍(抑郁症、精神病、妄想症)的认知模型,并通过大规模模拟人机对话进行评估。“情绪评估”使用临床验证的心理和精神病学评估工具来评估大语言模型诱发的精神风险。这些工具分别用于评估抑郁症、妄想症和精神病症状的严重程度。“情绪评估”的评估过程包括:初始化虚拟用户并进行初始心理健康测试;虚拟用户与基于角色的AI智能体进行对话(对话管理器负责引导对话,避免重复并引入相关主题,同时探测AI智能体的潜在漏洞);对话结束后进行最终的心理健康测试;最后对初始和最终的心理健康测试结果进行处理和分析,并检查导致抑郁症加重的案例的聊天记录,以识别促成因素。

情绪卫士是一个实时安全防护智能体框架,可以作为用户和AI系统之间的中间层进行即插即用式集成。它监测用户的心理状态,预测潜在的危害,并向AI系统提供纠正性反馈,从而提供超越传统安全措施的动态对话干预。情绪卫士包含四个专门的模块:情绪观察器(通过情感分析和心理标记检测用户的焦虑、沮丧或挣扎);思想矫正器(分析用户的思维过程,识别逻辑谬误、认知偏差和不一致之处);对话指南(提供可操作的建议,指导建设性对话);管理器(总结所有模块的输出,确保情感敏感性、逻辑一致性和与角色特征相符的自然对话流程)。情绪卫士通过迭代训练过程不断改进其安全性能,该过程基于聊天记录分析和过去的表现进行更新。

文章进行了广泛的实验,评估了流行的基于角色的聊天机器人(Character.AI平台上的四个不同角色,以及两种不同的对话风格:“猫叫”和“吼叫”)的性能,并评估了与这些AI角色互动对模拟患者心理健康的影响。结果表明,在超过34.4%的模拟中,观察到精神状态恶化。特别是“吼叫”风格的对话,更容易导致抑郁症和精神病症状的恶化。而情绪卫士显著降低了这些恶化率,突显了其在确保更安全的人工智能与人类互动中的作用。实验还分析了导致精神状态恶化的常见原因,包括强化消极认知、缺乏情感支持和同理心、导致孤立和社交退缩、缺乏建设性指导和可操作的应对策略以及使用消极或极端的语气等。

文章还对基于GPT系列模型的AI角色进行了评估,结果显示,这些模型也存在较高的精神健康恶化风险。情绪卫士在这些模型上的应用也显示出显著的风险降低效果。

最后,文章讨论了“情绪智能体”的局限性,例如模拟用户智能体可能无法完全捕捉真实患者的行为复杂性和情绪反应,以及本研究主要仅关注了三种精神健康状况等。文章强调了在会话式AI中精神安全的重要性,并认为“情绪智能体”为未来人工智能与人类互动安全方面的进步奠定了基础,同时也呼吁进一步进行真实世界的验证和专家评估。文章特别注意到了伦理考量,强调模拟数据并非来自真实患者,所有模拟都在受控环境中进行,且没有得出或暗示任何临床结论。

该项目的代码可以在文中给出的链接上获取。

如需要《“情绪智能体”:评估和保障人机交互的精神健康安全》(英文,共18页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。




★ 每日鲜鸡汤  ★

When things change inside you, things change around you. 当内心之境变迁,周遭万物亦随之而变。早上好!

图片