
1、引言
随着大语言模型在医疗领域的广泛应用,用户越来越倾向于通过对话式AI工具(如聊天机器人)来寻求健康信息。然而,这些交互的性质及其潜在风险在很大程度上仍未被充分探索。
本文《"医生, 聊聊健康?":分析用户如何在大规模对话式AI数据集中寻求健康信息》通过分析大规模对话式AI数据集,系统研究了用户在与大语言模型交互时寻求健康信息的行为模式,揭示了用户交互的常见模式、信息不完整的情况、情感行为以及可能诱导模型顺从迎合的交互方式。
2、研究背景与动机
尽管大语言模型在临床任务中表现出色,但公众使用这些模型的方式与专业临床环境存在显著差异。
现有评估主要集中于临床医生或研究人员导向的任务,忽略了真实世界中患者与聊天机器人的多轮对话模式。此外,现有的消费者健康查询数据集多为单轮查询或合成交互,无法充分反映真实用户的多轮、开放式提问特点。本文通过构建“健康聊天-11K”数据集,填补了这一研究空白。

3、数据集构建
●数据来源与筛选:研究从其它几个大型对话数据集中筛选出11,000个真实对话,包含25,000条用户消息。筛选过程包括语言过滤、毒性内容过滤、非健康相关内容过滤等步骤,确保数据集的质量和相关性。
●分类体系构建:研究开发了一个由临床医生驱动的分类体系,将对话分为21个医疗专业领域(如普通健康、心理健康、心脏病学等),并在消息层面细分为提供上下文、请求信息、交互管理、范围外四大类,每类下又包含多个子类。
●标注过程:利用Gemini 1.5 Pro等大语言模型进行初步标注,再通过人工审核确保标注的准确性。最终数据集包含丰富的标注信息,支持对用户交互模式的深入分析。

4、用户交互模式分析
●常见交互模式:研究发现,用户在与大语言模型交互时,最常见的行为是请求信息(占所有交互的近40%),尤其是治疗查询和生活方式建议。
在特定专业领域(如心理健康),用户更倾向于提供上下文信息以明确问题。
●信息不完整情况:真实对话中,用户往往不会一次性提供所有必要信息,而是随着对话的深入逐步披露。这要求大语言模型能够在信息不完整的情况下进行推理,但现有模型在此方面的表现并不理想。
●情感行为:用户在对话中表现出多种情感行为,包括正面情感(如感谢、问题解决后的满足感)和负面情感(如挫败感、焦虑)。理解这些情感行为对于提供有效的健康支持至关重要。
●诱导性提问与迎合性风险:用户有时会通过提出诱导性提问来诱导大语言模型给出特定建议,这些建议可能并不总是合适或安全的。
研究发现,诱导性提问在用户交互中占据一定比例,且其中不乏不恰当或误导性的请求。

5、案例研究
●信息不完整案例:用户可能先提出一个宽泛的症状查询,随后在对话中逐步提供更多上下文信息。
这要求大语言模型能够动态地适应用户的信息披露节奏。
●情感行为案例:用户在与大语言模型的交互中表现出强烈的情感反应,如对治疗建议的积极接受或对模型无法解决问题的挫败感。这些情感反应为设计更具同理心的大语言模型提供了重要线索。
●诱导迎合案例:用户通过提出特定治疗方法的引导性问题来试探大语言模型的建议。
这些请求有时涉及未经证实的疗法或高风险操作,凸显了大语言模型在应对此类请求时的伦理挑战。

6、结论与未来工作
本文通过分析“健康聊天-11K”数据集,揭示了用户在与大语言模型交互时寻求健康信息的复杂模式。
研究指出,现有大语言模型在处理信息不完整、情感行为和诱导迎合方面存在不足,需要进一步改进以提供更安全、有效的健康支持。未来工作将扩展分析的语言和文化范围,研究大语言模型的应答策略对用户行为的影响,并开发新的基准来评估大语言模型在真实世界交互中的表现。
本文的研究不仅为理解用户与大语言模型在健康信息寻求中的交互模式提供了宝贵见解,也为未来开发更智能、更人性化的医疗对话系统指明了方向。
如需要《"医生, 聊聊健康?":分析用户如何在大规模对话式AI数据集中寻求健康信息》(英文,共25页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



In life, there is no start that’s too late, only a giving up that’s too early. 人生没有太晚的开始,只有过早的放弃。早上好!
