一种基于注意力机制的知识标签提取模型的制作方法

专利2024-08-10  58



1.本发明涉及人工智能和大数据相关技术领域,具体涉及一种基于注意力机制的知识标签提取方法和模型。


背景技术:

2.随着互联网技术和多媒体技术的高速发展,在线学习平台数量如雨后春笋般在短短几年激增。为提高服务质量,满足学员足不出户就可以获得海量的教育资源的需求,网络授课技术也在不断优化。很多在线学习平台将授课内容进行直播播放,直播授课具有高实时性,互动性强等优点,但是无法重复观看,不利于用户多次会看和学习。基于此,在直播播放的同时,在线学习平台会对老师的授课过程进行录制,包括教师人体视频,和屏幕展示视频,在将这两个视频进行汇编,形成录播视频,供学生会看。
3.由于录播视频时长一般都很长,有的学员可能仅仅是想回看其中一部分录播内容,如果是一个完整的视频且没有增加任何的标注的话,学生无法快速搜索定位到自己想学习的部分,因此,很多在线教学平台将录播视频片段化,按照所学科目知识点或者所学科目章节进行分割和标注。使得学生通过搜索录播课程中的知识点标签,就可以找与只之向对应的录播内容。
4.传统的知识标签标注方法大多针对知识点授课视频进行,很少有针对习题讲解视频的。如果就按照与知识点授课视频相类似的方法,一般包括人工标注和单标签标注模型。单纯地依赖于依赖人工进行标注,导致效率低下,不适合具有大量习题的习题库;或者依赖于单标签模型的分类技术进行知识点标注,导致标注标签较为单一。
5.现有的技术大都是直接对文档进行关键词提取。如基于tf-idf(词频-逆文档频率),词频和逆文档频率的乘积作为单词的得分,选取得分较高的几个词作为关键词。基于textrank的方法,用局部词汇关系,即共现窗口,构建候选关键词图,采用共现关系构造任两点之间的边,根据公式迭代计算各节点的权重,直至收敛。最后,对节点权重进行排序,选取前面几个作为关键词。但是在实际中发现,现有技术的方法都只是依赖于词频或词语共现来判断词语的重要程度,从而对抽取的关键词进行排序,在有些情况下并不够准确。即使在提取之前已经进行了去停用词操作,提取出的关键词仍然可能是一些出现较多却无明显意义的词汇,所以往往需要在提取后再进行人工筛选。
6.深度学习在知识标签提取领域取得突破性成就,其中卷积神经网络具备学习知识标签高级特征的能力,深受国内外研究学者的喜爱。许多知识标签提取算法研究都采用深度学习方法并取得了优秀的成果,使用先进的卷积网络模型,有效解决了传统方法提取知识标签特征困难、计算成本高、操作复杂等问题。因此亟需开发一种克服上述缺陷的基于注意力机制的知识标签提取方法和模型。


技术实现要素:

7.本发明旨在至少在一定程度上解决相关技术中的技术问题,为达上述目的,本发
明提供一种基于注意力机制的知识标签提取方法和模型。
8.本发明第一方面提供一种基于注意力机制的知识标签提取模型,用于在线学习平台,所述知识标签提取模型包括注意力模块、膨胀归一化模块、耦合策略模块和标签提取模块,其中,所述知识标签提取模型在训练过程中采用分类交叉熵作为损失函数,使用softmax作为激活函数,使用adma优化器优化参数;所述注意力模块采用resnet基础网络,且所述注意力模块的每一个残差块中均设置有注意力块,相邻的两个残差块之间至少间隔两个网络层。
9.可选的,所述膨胀归一化模块通过不同膨胀率的膨胀卷积获取不同尺度特征信息,并使用最大池化算法将不同尺度特征信息池化为统一大小的特征矩阵。
10.可选的,所述耦合策略模块根据归一化算法和特征融合算法之间的区别采用对应的耦合策略将不同尺度的特征信息进行耦合处理。
11.可选的,所述归一化算法包括min-max归一化方法和l2范数归一化方法,所述特征融合算法包括串接融合算法和元素式求和融合算法。
12.可选的,所述标签提取模块包含一个全连接层和一个softmax标签分类层,全连接层将学到的分布式特征表示映射到样本标记空间,最终通过softmax函数得到最终的分类标签输出标签提取结果。
13.可选的,所述知识标签提取模型采用改进后的yolo网络模型,所述改进后的yolo网络模型采用mosaic数据增强算法对输入的数据样本进行增强处理,所述改进后的yolo网络模型使用gspdarknet53网络进行样本数据特征提取并生成多尺度的特征图。
14.可选的,所述改进后的yolo网络模型在多处csp1-x结构后面插入eca组件,所述eca组件首先利用全局平均池化将输入特征图变为坃维度的一维向量、然后在c维度进行一维卷积与sigmoid激活、最后将得到的一维向量重新输入特征图。
15.可选的,所述改进后的yolo网络模型的csp1-x结构中残差组件的个数大于改进之前的yolo网络模型的csp1-x结构中残差组件的个数。
16.本发明第二方面提供一种基于注意力机制的知识标签提取方法,所述知识标签提取方法采用第一方面所述的基于注意力机制的知识标签提取模型,所述知识标签提取方法包括:
17.s1、将知识文档数据集根据不同的知识标签属性分为训练集和验证集;
18.s2、利用训练集训练改进后的yolo网络模型并得到对应的权重与偏置,得到训练好的yolo网络模型;
19.s3、将验证集输入到注意力模块,由多到少提取标签特征信息;
20.s4、将s3提取的标签特征输入到不同的膨胀归一模块提取得到不同尺度的标签特征信息;
21.s5、根据归一化算法和特征融合算法之间的区别采用对应的耦合策略将s4提取得到的不同尺度标签特征信息耦合后得到全局多尺度特征信息;
22.s6、将s5输出的全局多尺度特征信息输入到标签分类模块,得到最终的标签提取结果。
23.本发明提供的一种基于注意力机制的知识标签提取方法和模型,其采用的注意力模块采用resnet基础网络,并且注意力模块的每一个残差块中均设置有注意力块,相邻的
两个残差块之间至少间隔两个网络层,进而通过在resnet基础网络中引入残差块使得知识标签提取模型更容易训练,并且,相邻的两个残差块之间至少间隔两个网络层进而可以根据需要在多个网络层之间插入注意力模块,正是由于在残差块中可以随意插入注意力块,插入注意力块的残差块可以实现特征提取的跨越式增长。
附图说明
24.图1为本发明实施例的一种基于注意力机制的知识标签提取模型的结构示意图;
25.图2为本发明实施例的一种基于注意力机制的知识标签提取方法的流程示意图。
具体实施方式
26.下面将参照附图详细描述本发明的实施例,描述涉及附图时,除非另有表示,不同附图中的相同附图标定表示相同或相似的要素。要说明的是,以下示例性实施例中所描述的实施方式并不代表本发明的所有实施方式。它们仅是与如权利要求书中所详述的、本发明公开的一些方面相一致的装置和方法的例子,本发明的范围并不局限于此。在不矛盾的前提下,本发明各个实施例中的特征可以相互组合。
27.如图1所示,本发明实施例提供一种基于注意力机制的知识标签提取模型,用于在线学习平台,在线学习平台通常包括知识点讲解授课模块和习题讲解教学模块,知识点讲解授课模块主要包括正课授课,以章节和知识点的展开方式进行。习题讲解教学模块主要以习题为主,有可能一套习题就包括多个考点,而为了测试学员的掌握情况,这些各个习题之间的考点并未太大关联。需要注意的是,习题讲解教学模块中的考点,也就是习题对应的知识标签实际上就源于知识点讲解授课模块的知识点,因此,知识标签可以作为两个模块之间共同的关键词使用。这些关键词也可以作为习题讲解教学模块和知识点讲解授课模块之间的无缝跳转的桥梁,起到关键的作用。综上所述,知识标签的提起是否合适关系到习题讲解教学模块和知识点讲解授课模块进行关联的关系是否合适,是否可以保证用户能够根据知识点讲解授课模块获得合适的习题进行联系和基于客户的联系习题进行合适的知识点讲解授课。
28.如图1所示,本发明实施例提供的一种基于注意力机制的知识标签提取模型包括注意力模块1、膨胀归一化模块2、耦合策略模块3和标签提取模块4,其中,本发明实施例的知识标签提取模型在训练过程中采用分类交叉熵作为损失函数,使用softmax作为激活函数,使用adma优化器优化参数;注意力模块1采用resnet基础网络,且注意力模块1的每一个残差块中均设置有注意力块,相邻的两个残差块之间至少间隔两个网络层。
29.本发明实施例提供的一种基于注意力机制的知识标签提取模型通过在resnet基础网络中引入残差块使得知识标签提取模型更容易训练,并且,相邻的两个残差块之间至少间隔两个网络层进而可以根据需要在多个网络层之间插入注意力模块,正是由于在残差块中可以随意插入注意力块,插入注意力块的残差块可以实现特征提取的跨越式增长。
30.本发明实施例提供的一种基于注意力机制的知识标签提取模型的注意力块按照规律插入到resnet基础网络的特征提取网络中,可以由多到少学习知识点信息,然后将该块中学习到的注意力信息直接编码回原始卷积特征,最终提取出关键的知识标签特征信息。对于插入的每一个注意力块,都可以预测一个概率热生成图,也即注意力特征图,大小
与输入特征图相同。注意块是通过应用两个4x4卷积层来实现,该卷积层由零均值高斯分布初始化,最终与原始卷积特征相比,通过逐渐模糊背景信息,注意力特征可以得到强烈的知识点特征增强。
31.参考图1所示,本发明实施例提供的膨胀归一化模块2通过不同膨胀率的膨胀卷积获取不同尺度特征信息,并使用最大池化算法将不同尺度特征信息池化为统一大小的特征矩阵,进而可以提高知识标签特征提取的精度和可靠性,降低模型训练过程对原始数据的依赖性。耦合策略模块3根据归一化算法和特征融合算法之间的区别采用对应的耦合策略将不同尺度的特征信息进行耦合处理。优选的,归一化算法包括min-max归一化方法和l2范数归一化方法,特征融合算法包括串接融合算法和元素式求和融合算法。
32.本发明实施例为了使不同习题文本特征的膨胀归一处理之后得到的特征匹配相同的数量级,膨胀卷积输出的特征向量采用池化实现相同的维度,相同的维度的图像特征信息最终才可以耦合在一起。本发明实施例为了更好的提取知识标签的特征信息,优选的归一化算法包括min-max归一化方法和l2范数归一化方法配合串接融合算法和元素式求和融合算法两种特征融合算法。进而基于选定的min-max归一化方法和l2范数归一化方法配合串接融合算法和元素式求和融合算法两种特征融合算法组合形成至少4种不同的耦合策略,进而可以实现利用不同尺度的特征进行目标分类,提高知识标签提取的精度和准确性。
33.本发明实施例的标签提取模块包含一个全连接层和一个softmax标签分类层,全连接层将学到的分布式特征表示映射到样本标记空间,最终通过softmax函数得到最终的分类标签输出标签提取结果。进一步的,本发明实施例的知识标签提取模型采用改进后的yolo网络模型,所述改进后的yolo网络模型采用mosaic数据增强算法对输入的数据样本进行增强处理,改进后的yolo网络模型使用gspdarknet53网络进行样本数据特征提取并生成多尺度的特征图。改进后的yolo网络模型采用mosaic数据增强算法对输入的数据样本进行增强处理,不仅继承了yolov4的特征金字塔和路径聚合网络的优势,而且通过将普通的卷积操作改为借鉴gspnet思想而设计的gsp3结构,可以极大的增强改进后的yolo网络模型的知识标签特征融合的能力。
34.本发明实施例提供的一种基于注意力机制的知识标签提取模型,其采用的改进后的yolo网络模型在多处csp1-y结构后面插入eca组件,eca组件首先利用全局平均池化将输入特征图变为坃维度的一维向量、然后在坃维度进行一维卷积与sigmoid激活、最后将得到的一维向量重新输入特征图,进而在特征提取和标签融合过程中提高了坃维度特征的重要性,可以通过加权处理的方式保证坃维度特征在标签提起过程中起到决定性要素,进而保证提取结果的可靠性。
35.而且,本发明实施例提供的一种基于注意力机制的知识标签提取模型,改进后的yolo网络模型的csp1-x结构中残差组件的个数大于改进之前的yolo网络模型的csp1-x结构中残差组件的个数,进而通过增加yolo网络模型的csp1-x结构中残差组件的个数,来增大知识标签提取过程中模型的鲁棒性,使其能够更好的适应知识点讲解授课过程知识标签提取和习题练习过程的知识标签提取,提高知识标签提取的深度和精确度。
36.而且,本发明实施例的一种基于注意力机制的知识标签提取模型所采用的改进后的yolo网络模型采用多循环yolo网络算法,进而可以通过采用智能边缘缓存方法来最小化用户访问时延。通过将边缘缓存问题建模为部分可观察马尔可夫决策过程,实现在改进后
的yolo网络上使用门控循环单元来处理状态的部分可观察性,并根据多时隙的状态来做出缓存决策。同时,改进后的yolo网络算法使用基于注意力机制的yolo网络来评判缓存决策的优劣,能加强区域内多边缘智能体之间的合作缓存,能够有效降低区域内用户网络时延,具有适应性强、缓存收益大的特点,可以提高本发明实施例的基于注意力机制的知识标签提取模型的访问速度和处理速度。
37.本发明提供的一种基于注意力机制的知识标签提取方法和模型,其采用的注意力模块采用resnet基础网络,并且注意力模块的每一个残差块中均设置有注意力块,相邻的两个残差块之间至少间隔两个网络层,进而通过在resnet基础网络中引入残差块使得知识标签提取模型更容易训练,并且,相邻的两个残差块之间至少间隔两个网络层进而可以根据需要在多个网络层之间插入注意力模块,正是由于在残差块中可以随意插入注意力块,插入注意力块的残差块可以实现特征提取的跨越式增长。
38.参考图2所示,基于相同的发明构思,本发明实施例还提供一种基于注意力机制的知识标签提取方法,所述知识标签提取方法采用上述的基于注意力机制的知识标签提取模型,所述知识标签提取方法包括:
39.s1、将知识文档数据集根据不同的知识标签属性分为训练集和验证集;
40.s2、利用训练集训练改进后的yolo网络模型并得到对应的权重与偏置,得到训练好的yolo网络模型;
41.s3、将验证集输入到注意力模块,由多到少提取标签特征信息;
42.s4、将s3提取的标签特征输入到不同的膨胀归一模块提取得到不同尺度的标签特征信息;
43.s5、根据归一化算法和特征融合算法之间的区别采用对应的耦合策略将s4提取得到的不同尺度标签特征信息耦合后得到全局多尺度特征信息;
44.s6、将s5输出的全局多尺度特征信息输入到标签分类模块,得到最终的标签提取结果。
45.本发明实施例还提供一种基于注意力机制的知识标签提取方法具有与上述基于注意力机制的知识标签提取模型相同的发明构思和相同的有益效果,本发明实施例在此不再赘述。
46.一般来说,用以实现本发明方法的计算机指令的可以采用一个或众多计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质,除了临时性地传播中的信号本身。
47.计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或众多导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
48.尽管上面已经示出和描述了本发明的实施例,应当理解的是,上述实施例是示例性的,不能解释为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述
实施例进行变化、修改、替换和变型。

技术特征:
1.一种基于注意力机制的知识标签提取模型,用于在线学习平台,其特征在于,所述知识标签提取模型包括注意力模块、膨胀归一化模块、耦合策略模块和标签提取模块,其中,所述知识标签提取模型在训练过程中采用分类交叉熵作为损失函数,使用softmax作为激活函数,使用adma优化器优化参数;所述注意力模块采用resnet基础网络,且所述注意力模块的每一个残差块中均设置有注意力块,相邻的两个残差块之间至少间隔两个网络层。2.根据权利要求1所述的基于注意力机制的知识标签提取模型,其特征在于,所述膨胀归一化模块通过不同膨胀率的膨胀卷积获取不同尺度特征信息,并使用最大池化算法将不同尺度特征信息池化为统一大小的特征矩阵。3.根据权利要求1所述的基于注意力机制的知识标签提取模型,其特征在于,所述耦合策略模块根据归一化算法和特征融合算法之间的区别采用对应的耦合策略将不同尺度的特征信息进行耦合处理。4.根据权利要求3所述的基于注意力机制的知识标签提取模型,其特征在于,所述归一化算法包括min-max归一化方法和l2范数归一化方法,所述特征融合算法包括串接融合算法和元素式求和融合算法。5.根据权利要求1~3任一项所述的基于注意力机制的知识标签提取模型,其特征在于,所述标签提取模块包含一个全连接层和一个softmax标签分类层,全连接层将学到的分布式特征表示映射到样本标记空间,最终通过softmax函数得到最终的分类标签输出标签提取结果。6.根据权利要求1~3任一项所述的基于注意力机制的知识标签提取模型,其特征在于,所述知识标签提取模型采用改进后的yolo网络模型,所述改进后的yolo网络模型采用mosaic数据增强算法对输入的数据样本进行增强处理,所述改进后的yolo网络模型使用gspdarknet53网络进行样本数据特征提取并生成多尺度的特征图。7.根据权利要求5所述的基于注意力机制的知识标签提取模型,其特征在于,所述改进后的yolo网络模型在多处csp1-x结构后面插入eca组件,所述eca组件首先利用全局平均池化将输入特征图变为坃维度的一维向量、然后在c维度进行一维卷积与sigmoid激活、最后将得到的一维向量重新输入特征图。8.根据权利要求6所述的基于注意力机制的知识标签提取模型,其特征在于,所述改进后的yolo网络模型的csp1-x结构中残差组件的个数大于改进之前的yolo网络模型的csp1-x结构中残差组件的个数。9.一种基于注意力机制的知识标签提取方法,所述知识标签提取方法采用如权利要求1~8任一项所述的基于注意力机制的知识标签提取模型,其特征在于,所述知识标签提取方法包括:s1、将知识文档数据集根据不同的知识标签属性分为训练集和验证集;s2、利用训练集训练改进后的yolo网络模型并得到对应的权重与偏置,得到训练好的yolo网络模型;s3、将验证集输入到注意力模块,由多到少提取标签特征信息;s4、将s3提取的标签特征输入到不同的膨胀归一模块提取得到不同尺度的标签特征信息;s5、根据归一化算法和特征融合算法之间的区别采用对应的耦合策略将s4提取得到的
不同尺度标签特征信息耦合后得到全局多尺度特征信息;s6、将s5输出的全局多尺度特征信息输入到标签分类模块,得到最终的标签提取结果。

技术总结
本发明提供了一种基于注意力机制的知识标签提取方法和模型,涉及人工智能和大数据相关技术领域,其采用的注意力模块采用ResNet基础网络,并且注意力模块的每一个残差块中均设置有注意力块,相邻的两个残差块之间至少间隔两个网络层,进而通过在ResNet基础网络中引入残差块使得知识标签提取模型更容易训练,并且,相邻的两个残差块之间至少间隔两个网络层进而可以根据需要在多个网络层之间插入注意力模块,正是由于在残差块中可以随意插入注意力块,插入注意力块的残差块可以实现特征提取的跨越式增长。的跨越式增长。的跨越式增长。


技术研发人员:郭峰 刘兵 刘晓英 刘全 郭晓丹 李战军
受保护的技术使用者:青软创新科技集团股份有限公司
技术研发日:2022.07.18
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-9311.html

最新回复(0)