本技术涉及信息分析,特别是涉及一种基于多标签因果关系的信息分级预警方法、装置和设备。
背景技术:
1、分级预警在信息分析领域具有重要意义,特别是在未来信息化智能化技术快速发展与信息爆炸的时代背景下。随着社会朝着信息化、智能化时代快速发展和数据泛滥、信息爆炸,信息分析的全方位效能提升成为满足未来决策需求的关键要求。现有的分级预警方法存在误判率较高的问题,因此亟需采用先进技术不断优化现有的分级预警模型,以降低误判率并改善召回率。
2、传统的分级预警方法涉及使用相关隐私且专用的信息文本数据,对不同紧急程度的信息内容进行分析与分级,并对所有信息进行对应级别的标记。接着,通过数据统计来形成完整的信息分级规范。然而,这种基于人工分析的分级预警模式存在准确率低且耗时费力的问题。同时,由于数据的保密性以及不同标准的特异性,该方法的通用性较差。
3、近年来,为提高分级预警的准确率并降低人力消耗,基于机器学习的方法得到广泛应用。主要有以下技术,一种是基于大量的文本数据,训练非线性支持向量机分类器来实现分级预警;另一种方法是利用卷积神经网络模型来学习不同级别信息原型来表征信息的特点。 然而,基于机器学习的分级预警方法仍然存在识别准确率较低的问题。
4、在文本分类领域,现有的细粒度分类方法主要依赖于预训练语言模型,通过上下文信息和注意力机制捕捉文本中的细微差异。这些方法在处理单标签分类任务时表现出色,但在多标签场景下仍存在显著局限。大多数细粒度文本分类模型假设每个样本仅对应一个标签,难以捕捉复杂的多标签共现关系,使得它们在应对具有多标签的复杂场景时表现不够理想。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够现在细粒度类别条件下对信息的准确识别的基于多标签因果关系的信息分级预警方法、装置和设备。
2、一种基于多标签因果关系的信息分级预警方法,该方法包括:
3、根据预设的信息分级预警总级别数和信息分级目的,制定信息级别规范。
4、根据信息级别规范对真实文本数据进行预处理和标签分配,构建有标注的训练数据集。
5、构建基于多标签因果关系的信息分级预警模型;其中信息分级预警模型包括文本编码器、标签表征网络、标签混淆模型以及朴素贝叶斯分类器;文本编码器用于提取训练数据集的文本表征;标签表征网络用于提取训练数据集中与文本表征对应的标签表征;标签混淆模型用于根据文本表征和标签表征计算模拟标签分布;朴素贝叶斯分类器用于根据文本表征计算预测标签分布,标签混淆模型是多通道融合网络,由采用多头注意力机制的相似性层和标签分布计算层组成;相似性层用于将标签表征和当前实例表征作为输入,通过点积函数计算相似性;标签分布计算层用于采用具有激活层的神经网络来获得标签混淆分布;标签混淆分布为:
6、;
7、其中,为标签混淆分布;表示模拟标签分布;表示真实单向量标签;是平衡因子,平衡因子为0到1之间的数,用于控制算法对于不同级别的敏感程度。
8、根据训练数据集采用有监督的模型训练方式对信息分级预警模型进行训练,得到训练好的信息分级预警模型。
9、将待分类的信息数据及制定标准输入到训练好的信息分级预警模型中,得到待分类信息紧急级别。
10、在其中一个实施例中,有标注的训练数据集中,信息的重要级别由0级别开始递增;信息的重要级别无上限。
11、在其中一个实施例中,根据训练数据集采用有监督的模型训练方式对信息分级预警模型进行训练,得到训练好的信息分级预警模型,包括:
12、将训练数据集输入到文本编码器中,得到文本表征。
13、将训练数据集输入到标签表征网络中,得到与文本表征对应的标签表征。
14、将文本表征、对应的标签表征以及单标签向量输入到标签混淆模型中,得到模拟标签分布。
15、将文本表征输入到朴素贝叶斯分类器中,得到预测标签分布。
16、根据模拟标签分布和预测标签分布采用kl散度方式计算模型训练损失,根据模型训练损失对信息分级预警模型的参数进行更新,直到训练次数达到预设迭代次数为止,得到训练好的信息分级预警模型。
17、在其中一个实施例中,文本编码器由分词器,预训练语言模型和多层前馈神经网络组成。
18、在其中一个实施例中,标签表征网络包括多层transformer编码器、多层感知机和图神经网络,以全面捕捉标签之间的因果关系。
19、一种基于多标签因果关系的信息分级预警装置,装置包括:
20、有标注的训练数据集构建模块,用于根据预设的信息分级预警总级别数和信息分级目的,制定信息级别规范;根据信息级别规范对真实文本数据进行预处理和标签分配,构建有标注的训练数据集。
21、信息分级预警模型构建模块,用于构建基于多标签因果关系的信息分级预警模型;其中信息分级预警模型包括文本编码器、标签表征网络、标签混淆模型以及朴素贝叶斯分类器;文本编码器用于提取训练数据集的文本表征;标签表征网络用于提取训练数据集中与文本表征对应的标签表征;标签混淆模型用于根据文本表征和标签表征计算模拟标签分布;朴素贝叶斯分类器用于根据文本表征计算预测标签分布,标签混淆模型是多通道融合网络,由采用多头注意力机制的相似性层和标签分布计算层组成;相似性层用于将标签表征和当前实例表征作为输入,通过点积函数计算相似性;标签分布计算层用于采用具有激活层的神经网络来获得标签混淆分布;标签混淆分布为:
22、;
23、其中,为标签混淆分布;表示模拟标签分布;表示真实单向量标签;是平衡因子,平衡因子为0到1之间的数,用于控制算法对于不同级别的敏感程度。
24、信息分级预警模型训练模块,用于根据训练数据集采用有监督的模型训练方式对信息分级预警模型进行训练,得到训练好的信息分级预警模型。
25、信息分级预警模块,用于将待分类的信息数据及制定标准输入到训练好的信息分级预警模型中,得到待分类信息紧急级别。
26、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
27、根据预设的信息分级预警总级别数和信息分级目的,制定信息级别规范。
28、根据信息级别规范对真实文本数据进行预处理和标签分配,构建有标注的训练数据集。
29、构建基于多标签因果关系的信息分级预警模型;其中信息分级预警模型包括文本编码器、标签表征网络、标签混淆模型以及朴素贝叶斯分类器;文本编码器用于提取训练数据集的文本表征;标签表征网络用于提取训练数据集中与文本表征对应的标签表征;标签混淆模型用于根据文本表征和标签表征计算模拟标签分布;朴素贝叶斯分类器用于根据文本表征计算预测标签分布,标签混淆模型是多通道融合网络,由采用多头注意力机制的相似性层和标签分布计算层组成;相似性层用于将标签表征和当前实例表征作为输入,通过点积函数计算相似性;标签分布计算层用于采用具有激活层的神经网络来获得标签混淆分布;标签混淆分布为:
30、;
31、其中,为标签混淆分布;表示模拟标签分布;表示真实单向量标签;是平衡因子,平衡因子为0到1之间的数,用于控制算法对于不同级别的敏感程度。
32、根据训练数据集采用有监督的模型训练方式对信息分级预警模型进行训练,得到训练好的信息分级预警模型。
33、将待分类的信息数据及制定标准输入到训练好的信息分级预警模型中,得到待分类信息紧急级别。
34、上述基于多标签因果关系的信息分级预警方法、装置和设备,该方法包括:根据预设的信息分级预警总级别数和信息分级目的,制定信息级别规范;根据信息级别规范对真实文本数据进行预处理和标签分配,构建有标注的训练数据集;构建基于多标签因果关系的信息分级预警模型;根据训练数据集采用有监督的模型训练方式对信息分级预警模型进行训练,得到训练好的信息分级预警模型;采用训练好的信息分级预警模型对待分类的信息数据进行处理,得到待分类信息紧急级别。本方法能捕捉不同级别信息的细粒度差别,并结合信息分级标准来对信息紧急级别进行综合预测;通过基于多标签因果关系的分级预警模型,有效提升了信息分级预警准确率,为减少人力消耗的同时,进一步提升了信息分析的效率以及准确性;区别于之前的预警方法只学习数据与单个标签的关联性,本方法根据实例的特点动态捕捉其与多级标签的因果关系,从而理解不同级别之间的细微差别,达到更好的分类效果。
1.一种基于多标签因果关系的信息分级预警方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,有标注的训练数据集中,信息的重要级别由0级别开始递增;信息的重要级别无上限。
3.根据权利要求1所述的方法,其特征在于,根据所述训练数据集采用有监督的模型训练方式对所述信息分级预警模型进行训练,得到训练好的信息分级预警模型,包括:
4.根据权利要求1所述的方法,其特征在于,所述文本编码器由分词器,预训练语言模型和多层前馈神经网络组成。
5.根据权利要求1所述的方法,其特征在于,所述标签表征网络包括多层transformer编码器、多层感知机和图神经网络,以全面捕捉标签之间的因果关系。
6.一种基于多标签因果关系的信息分级预警装置,其特征在于,所述装置包括:
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法。
