图片

在医疗领域中,精确的信息传递和知识获取至关重要。然而,当前的通用语言模型在面对医疗专业内容时常常显得力不从心,无法提供足够的专业性和准确性。随着医疗领域对大语言模型的应用潜力不断提升,开发开源模型以保护公众利益的需求愈发显著。现有的医疗大语言模型多为专有型,缺乏透明性和可访问性,这使得研究人员、医务人员和开发人员在使用这些工具时面临风险。为此,本文作者提出了“艾乐”系列模型,旨在通过对特定医疗数据的微调,提升和优化模型在医疗应用中的表现,以及开源医疗模型的竞争力和安全性。这些模型的设计考虑了医疗文本的复杂性和高要求,特别是在诊断、治疗建议以及医疗记录分析等方面。

 

图片

“艾乐”模型的特点:
●开放源代码:“艾乐”系列模型基于开源模型,如MirstralLLaMA 3,确保了其开放性和可访问性。

 

●数据集:使用了一个结合公共数据源和合成思维链(CoT)的新定制数据集进行训练。

 

●微调技术:包括指令调整、模型合并、对齐、红队测试(red teaming)和高级推理方案。

 

●伦理性能:“艾乐”模型通过直接偏好优化(DPO)进行了对齐阶段,成为首批使用DPO的医疗大语言模型,树立了医疗大语言模型伦理性能的新标准。

 

●风险评估:进行了医疗大语言模型所需的风险评估,包括偏差、阿谀和毒性数据集的评估,以及专门的红队测试。

 

图片

“艾乐”模型的开发过程:
●数据预处理:包括清洗、去重、去污染和后处理过滤,以确保数据集的质量、多样性和数量。

 

●合成数据生成:使用Mixtral-8x7B模型生成CoT答案,提高了基准数据集训练拆分的质量。

 

●模型微调:在两个基础模型上进行监督微调,产生了两个助手模型,然后通过模型合并技术提高了性能。

 

DPO和红队测试:进行了两阶段的DPO过程,使用红队测试来识别模型的潜在风险,并据此生成对齐数据。

 

图片

“艾乐”模型的评估:
●医疗任务评估:“艾乐”模型在多个医疗基准测试中表现出色,特别是在使用医学提示语技术后,性能得到了显著提升。

 

AI原则评估:在针对AI原则的评估中,“艾乐”模型在伦理和事实性方面表现良好。

 

此外,“艾乐”模型在减少偏见和错误信息传播方面也表现出色。研究人员特别注重模型在训练过程中的偏见控制,确保其在医疗应用中能够提供公平、公正的信息支持。

 

未来,“艾乐”系列模型可以进一步扩展和优化,以适应更多的医疗应用。例如,可以开发新的“艾乐”模型变体,以处理特定的医疗任务,例如医疗图像分析或医疗决策支持。此外,可以使用更多的医疗保健数据来训练“艾乐”模型系列,以进一步提高其性能。

 

图片

总之,“艾乐”项目通过开发一系列开源的、经过微调的医疗大语言模型,为医疗领域带来了创新性的解决方案。这些模型不仅在性能上可与专有型模型竞争,而且在伦理和透明度方面树立了新标准。“艾乐”系列模型不仅增强了医疗信息的获取和处理能力,为临床决策和患者医护提供了强大的支持工具,而且还通过开源模型、训练数据和推理技术,促进了医疗人工智能技术的民主化和负责任的使用。然而,使用这些模型时需要谨慎,并考虑到其潜在的风险和伦理问题。未来的工作将集中在进一步扩展“艾乐”模型的能力,以及探索更广泛的应用领域,为医疗健康领域的进一步发展做出贡献。