本发明涉及基于特定计算模型的计算机系统,具体涉及一种基于知识蒸馏的呼吸暂停知识问答模型训练方法。
背景技术:
1、最近,通过在大规模语料库上训练transformer模型(常包含数百或数千亿的参数),使得其在解决各种自然语言处理任务方面显示出强大的能力。然而,数百或数千亿的参数大幅增加了模型的计算复杂度,对模型所部署的硬件配置提出了更加严苛的要求,使得其很难应用于真实场景中。
2、因此,在保证模型性能的前提下,为有效降低模型的计算复杂度,解决不同场景下的各种自然语言处理问题,自然语言处理方法技术领域迫切需要一种基于知识蒸馏的呼吸暂停知识问答模型。
技术实现思路
1、本发明是为了解决模型计算复杂度的问题,提供一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,教师模型通过重建损失监督学生模型的特征学习,使其拥有教师模型的特征表达能力;学生模型结合分类损失,提高学生模型在下游任务中的泛化能力。相较以往的语言模型训练方法,本发明实现了在保持高准确率的同时,提高了问答系统的响应速度,这对于普及呼吸暂停相关知识、辅助快速诊断、提供个性化治疗建议等方面具有显著的有益效果,进而促进了医疗资源的合理分配和医疗服务质量的提升。
2、本发明提供一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,包括以下步骤:
3、s1、建立基于ai语言大模型问答结果的呼吸暂停知识数据集并划分为训练集、验证集和测试集;
4、s2、建立基于知识蒸馏的掩码语言模块和基于自监督的掩码语言训练模块,基于知识蒸馏的掩码语言模块通过掩码语言模型和重建损失指导学生模型的特征重建以使学生模型具有教师模型相当的呼吸暂停知识特征表达能力,教师模型包括编码器vit-h和词嵌入模块,学生模型的编码器参数数量小于编码器vit-h参数数量,学生模型也包括词嵌入模块;
5、基于自监督掩码的语言训练模块为非对称的编码器-解码器网络结构,编码器为学生模型的编码器vit-t,解码器为多层感知机,通过结合基于知识蒸馏的掩码语言模块和分类损失提高编码器vit-t的隐性呼吸暂停知识表达能力和对下游任务的泛化能力;
6、s3、建立重建损失、分类损失和总损失;
7、s4、利用训练集、验证集和测试集分别训练、验证、测试学生模型,达到模型收敛阈值后得到基于知识蒸馏的呼吸暂停知识问答模型,一种基于知识蒸馏的呼吸暂停知识问答模型的训练方法完成。
8、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,作为优选方式,步骤s1包括:
9、s11、从医学文献、专业数据库和在线健康论坛中提取呼吸暂停知识相关文本数据;
10、s12、基于呼吸暂停知识相关文本数据制作模板并使用ai语言大模型进行患者和智能助手间的问答,记录ai语言大模型的问答结果并划分为训练集、验证集和测试集。
11、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,作为优选方式,步骤s2中,编码器vit-h为预训练的编码器,编码器vit-h的训练语料库大于学生模型编码器的训练语料库。
12、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,作为优选方式,编码器vit-h和编码器vit-t的的基础模块均包括依次连接的第一层标准化模块、多头注意力模块、第二层标准化模块和多层感知机,基础模块的输入端口同时输入至第一层标准化模块和第二层标准化模块,多头注意力模块的输出与多层感知机的输出同时对外输出。
13、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,作为优选方式,编码器vit-h的基础模块数量为32个,编码器vit-t的基础模块数量为6个。
14、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,作为优选方式,步骤s2中,基于知识蒸馏的掩码语言模块的处理方法为:
15、将输入的呼吸暂停知识句子进行分词处理得到文本token序列并输出至教师模型,教师模型基于词嵌入模块进行token序列向量化、输出并提取教师模型目标特征,教师模型为冻结状态;
16、;
17、将文本token序列进行随机掩码后输出至学生模型,学生模型基于词嵌入模块进行token序列向量化、输出并提取学生模型重建特征;
18、;
19、根据教师模型目标特征和学生模型重建特征得到重建损失,将学生模型重建特征输出至解码器。
20、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,作为优选方式,步骤s2中,基于自监督掩码语言训练模块包括:将呼吸暂停知识句子经分词处理为文本token序列,基于词嵌入模块和随机掩码生成掩码区域标签信息,其中为掩码token的索引,为词嵌入的长度。
21、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,作为优选方式,步骤s3中,重建损失为:
22、;
23、其中,n为向量维度,为norm。
24、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型,作为优选方式,步骤s3中,分类损失为:
25、;
26、其中, 为对第个掩码token的第个类别位置的预测,为掩码token的个数。
27、本发明所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,作为优选方式,步骤s3中,总损失为:
28、。
29、本发明具有以下优点:
30、(1)基于在大规模语料库上预训练vision transformer -huge(vit-h)优异的特征提取能力,结合重构损失,利用知识蒸馏结构在特征层面指导vision transformer -tiny(vit-t)等参数量较少模型在下游任务中的特征重建,探索学生模型对教师模型的知识迁移能力;除此之外,学生模型结合掩码语言模型和分类损失,进一步提高编码器的隐性知识表达能力和解码器对下游任务的泛化能力;
31、(2)自监督掩码语言训练模块使得学生模型能够在下游任务提供的语料信息下,并基于其提供的上下文信息,实现文本句子的补全和修正;
32、(3)学生模型简单的网络结构,使得其计算复杂度明显降低,减低了模型的部署成本,使得其有机会应用于真实场景中,具有一定的实际使用价值;
33、(4)本发明基于知识蒸馏的掩码语言训练模块和自监督的掩码语言训练模块,并结合重构损失和分类损失,不仅使得学生模型拥有教师模型丰富的知识,且提升学生模型对于下游任务的泛化能力;除此之外,学生模型简单的网络结构,使得其计算复杂度明显降低,减低了模型的部署成本,使得其有机会应用于真实场景中。
1.一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s1包括:
3.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s2中,所述编码器vit-h为预训练的编码器,所述编码器vit-h的训练语料库大于学生模型编码器的训练语料库。
4.根据权利要求3所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:所述编码器vit-h和所述编码器vit-t的基础模块均包括依次连接的第一层标准化模块、多头注意力模块、第二层标准化模块和多层感知机,所述基础模块的输入端口同时输入至所述第一层标准化模块和所述第二层标准化模块,所述多头注意力模块的输出与所述多层感知机的输出同时对外输出。
5.根据权利要求4所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:所述编码器vit-h的基础模块数量为32个,所述编码器vit-t的基础模块数量为6个。
6.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s2中,所述基于知识蒸馏的掩码语言模块的处理方法为:
7.根据权利要求6所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s2中,所述基于自监督的掩码语言训练模块将所述呼吸暂停知识句子经分词处理为文本token序列,基于所述词嵌入模块和随机掩码生成掩码区域标签信息,其中为掩码token的索引,为词嵌入的长度。
8.根据权利要求6所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s3中,所述重建损失为:
9.根据权利要求6所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s3中,所述分类损失为:
10.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:
