1.本发明涉及计算机领域,具体而言,涉及一种自监督编码器训练方法、装置、存储介质以及电子设备。
背景技术:2.自动编码器属于生成模型的一种,随着深度学习的出现,自动编码器可以通过网络层堆叠形成深度自动编码器来实现数据降维。通过编码过程减少隐藏层中的单元数量,可以以分层的方式实现降维,在更深的隐藏层中获得更高级的特征,从而在解码过程中更好的重建数据。图像自动编码器可以实现自监督学习,学习到比较好的图像特征,但现有技术中,是对比式学习,无法将图像和文本一起,实现多模态的生成式自动编码器。
技术实现要素:3.本发明实施例提供了一种自监督编码器训练方法、装置、存储介质以及电子设备,以至少解决编码器无法多模态自动学习的技术问题。
4.根据本发明实施例的一个方面,提供了一种自监督编码器训练方法,包括:获取待测试图像和待测试文本序列;将上述待测试图像和上述待测试文本序列输入至已训练的编码器模块中;通过编码得到目标图像特征和目标文本特征;将上述目标图像特征和上述目标文本特征用于下游任务。
5.根据本发明实施例的另一方面,提供了一种自监督编码器训练装置,包括:获取模块,用于获取待测试图像和待测试文本序列;输入模块,用于将上述待测试图像和上述待测试文本序列输入至已训练的编码器模块中;编码模块,用于通过编码得到目标图像特征和目标文本特征;处理模块,用于将上述目标图像特征和上述目标文本特征用于下游任务。
6.作为一种可选的示例,上述输入模块包括:获取单元,用于获取待训练图像和待训练文本;处理单元,用于对上述待训练图像执行掩膜操作,得到第一图像序列,并对上述待训练文本执行掩膜操作,得到第一文本序列;训练单元,用于使用上述第一图像序列和上述第一文本序列训练编码器模块,得到上述已训练的编码器模块。
7.作为一种可选的示例,上述处理单元包括:第一分块子单元,用于将上述待训练图像进行等分分块,得到第一数量的图像块;第一处理子单元,用于对上述第一数量的图像块中的第一比例的图像块执行上述掩膜操作,得到掩膜图像块和未掩膜图像块;第一拼接子单元,用于将上述未掩膜图像块进行拼接,得到上述第一图像序列。
8.作为一种可选的示例,上述处理单元包括:第二分块子单元,用于将上述待训练文本进行等分分块,得到第二数量的文本块;第二处理子单元,用于对上述第二数量的文本块中第二比例的文本块执行上述掩膜操作,得到掩膜文本块和未掩膜文本块;第二拼接子单元将上述未掩膜文本块进行拼接,得到上述第一文本序列。
9.作为一种可选的示例,上述训练单元包括:第三拼接子单元,用于将上述第一图像序列和上述第一文本序列进行拼接,得到第一序列;输入子单元,用于将上述第一序列输入
至上述编码器模块;编码子单元,用于通过编码,得到编码后的第一图像特征和第一文本特征;训练子单元,用于使用上述第一图像特征和上述第一文本特征训练编码器模块,得到上述已训练的编码器模块。
10.作为一种可选的示例,上述训练子单元还用于:将上述待训练图像中的掩膜图像块和上述第一图像特征拼接,得到第二图像特征,其中,上述掩膜图像块为将上述待训练图像进行等分分块得到第一数量的图像块后,上述第一数量的图像块中执行掩膜操作的图像块;将上述待训练文本中的掩膜文本块和上述第一文本特征拼接,得到第二文本特征,其中,上述掩膜文本块为将上述待训练文本进行等分分块得到第二数量的文本块后,上述第二数量的文本块中执行掩膜操作的文本块;使用上述第二图像特征和上述第二文本特征训练上述编码器模块,得到上述已训练的编码器模块。
11.作为一种可选的示例,上述训练子单元还用于:将上述第二图像特征和上述第二文本特征输入至译码器模块;通过译码,得到译码后的第三图像特征和第三文本特征;根据上述第三图像特征和上述第三文本特征,通过上述译码器模块进行重建,得到重建图像和重建文本;通过对比上述重建图像和上述待训练图像,上述重建文本和上述待训练文本,计算损失;将上述损失反向传播至上述编码器模块,得到上述已训练的编码器模块。
12.作为一种可选的示例,上述处理模块包括:分类单元,用于根据上述目标图像特征对上述待测试图像进行分类,并根据上述目标文本特征对上述待测试文本序列进行分类;或者通过上述目标图像特征识别上述待测试图像中的对象,并根据上述待测试文本序列识别上述待测试文本序列中的内容。
13.根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述自监督编码器训练方法。
14.根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的自监督编码器训练方法。
15.在本技术的上述流量投放方法可用于深度学习技术的计算机视觉的过程中,在本发明实施例中,采用了获取待测试图像和待测试文本序列;将上述待测试图像和上述待测试文本序列输入至已训练的编码器模块中;通过编码得到目标图像特征和目标文本特征;将上述目标图像特征和上述目标文本特征用于下游任务的方法,由于在上述方法中,通过将图像和文本序列输入至已训练的编码器模块中,得到目标图像特征和目标文本特征,从而实现了多模态自动编码器的目的,进而解决了编码器无法多模态自动学习的技术问题。
附图说明
16.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
17.图1是根据本发明实施例的一种可选的自监督编码器训练方法的流程图;
18.图2是根据本发明实施例的一种可选的自监督编码器训练方法的模型图;
19.图3是根据本发明实施例的一种可选的自监督编码器训练装置的结构示意图;
20.图4是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
21.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
22.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
23.根据本发明实施例的第一方面,提供了一种自监督编码器训练方法,可选地,如图1所示,上述方法包括:
24.s102,获取待测试图像和待测试文本序列;
25.s104,将待测试图像和待测试文本序列输入至已训练的编码器模块中;
26.s106,通过编码得到目标图像特征和目标文本特征;
27.s108,将目标图像特征和目标文本特征用于下游任务。
28.可选地,本实施例中,编码器模块,也为自动编码器,是一种监督式学习,在三层神经网络中的输入层和输出层使用相同的数据。下游任务为利用预训练模型或组件的监督学习任务。
29.可选地,本实施例中,获取待测试图像和待测试文本序列,并将其输入至已训练的编码器模块中进行编码,输出得到待测试图像对应的目标图像特征和待测试文本序列对应的目标文本特征,将目标图像特征和目标文本特征用于下游任务,根据目标图像特征对待测试图像进行分类,根据目标文本特征对待测试文本序列进行分类,或者通过目标图像特征识别待测试图像中的对象,根据待测试文本序列识别待测试文本序列中的内容。
30.可选地,本实施例中,通过将图像和文本序列输入至已训练的编码器模块中,得到目标图像特征和目标文本特征,从而实现了多模态自动编码器的目的,进而解决了编码器无法多模态自动学习的技术问题。
31.作为一种可选的示例,将待测试图像和待测试文本序列输入至已训练的编码器模块中包括:
32.获取待训练图像和待训练文本;
33.对待训练图像执行掩膜操作,得到第一图像序列,并对待训练文本执行掩膜操作,得到第一文本序列;
34.使用第一图像序列和第一文本序列训练编码器模块,得到已训练的编码器模块。
35.可选地,本实施例中,掩膜为用选定的图像、图形或物体,对待处理的图像或文本序列(全部或局部)进行遮挡,来控制图像处理的区域或处理过程。获取待训练图像和待训练文本,对待训练图像和待训练文本进行随机掩膜处理,得到待训练图像对应的第一图像
序列和待训练文本对应的第一文本序列,使用第一图像序列和第一文本序列训练编码器模块,以得到已训练的编码器模块。
36.作为一种可选的示例,对待训练图像执行掩膜操作,得到第一图像序列包括:
37.将待训练图像进行等分分块,得到第一数量的图像块;
38.对第一数量的图像块中的第一比例的图像块执行掩膜操作,得到掩膜图像块和未掩膜图像块;
39.将未掩膜图像块进行拼接,得到第一图像序列。
40.可选地,本实施例中,第一数量可以为6,9,第一比例可以为10%,20%,将待训练图像进行等分分块,分成n*n等块,若n为3时,即得到第一数量为9的图像块,若第一比例为20%,对9块图像块中的随机2块(四舍五入后的结果)图像块执行掩膜操作,得到2块掩膜图像块和7块未掩膜图像块。
41.作为一种可选的示例,对待训练文本执行掩膜操作,得到第一文本序列包括:
42.将待训练文本进行等分分块,得到第二数量的文本块;
43.对第二数量的文本块中第二比例的文本块执行掩膜操作,得到掩膜文本块和未掩膜文本块;
44.将未掩膜文本块进行拼接,得到第一文本序列。
45.可选地,本实施例中,第二数量可以为8,10,第二比例可以为10%,20%,将待训练文本进行等分分块,分成n等块,若n为8时,即得到第二数量为8的文本块,若第二比例为20%,对8块文本块中的随机2块(四舍五入后的结果)文本块执行掩膜操作,得到2块掩膜文本块和6块未掩膜文本块。
46.作为一种可选的示例,使用第一图像序列和第一文本序列训练编码器模块,得到已训练的编码器模块包括:
47.将第一图像序列和第一文本序列进行拼接,得到第一序列;
48.将第一序列输入至编码器模块;
49.通过编码,得到编码后的第一图像特征和第一文本特征;
50.使用第一图像特征和第一文本特征训练编码器模块,得到已训练的编码器模块。
51.可选地,本实施例中,将第一图像序列和第一文本序列一起拼接成第一序列,并将第一序列输入至编码器模块,通过编码器编码,输出得到第一图像特征和第一文本特征,使用第一图像特征和第一文本特征训练编码器模块,得到已训练的编码器模块。
52.作为一种可选的示例,根据第一图像特征和第一文本特征训练编码器模块,得到已训练的编码器模块包括:
53.将待训练图像中的掩膜图像块和第一图像特征拼接,得到第二图像特征,其中,掩膜图像块为将待训练图像进行等分分块得到第一数量的图像块后,第一数量的图像块中执行掩膜操作的图像块;
54.将待训练文本中的掩膜文本块和第一文本特征拼接,得到第二文本特征,其中,掩膜文本块为将待训练文本进行等分分块得到第二数量的文本块后,第二数量的文本块中执行掩膜操作的文本块;
55.使用第二图像特征和第二文本特征训练编码器模块,得到已训练的编码器模块。
56.可选地,本实施例中,将掩膜图像块和第一图像特征进行拼接,掩膜图像块的拼接
位置为待训练图像中的被执行掩膜操作的位置,得到第二图像特征,将掩膜文本块和第一文本特征进行拼接,掩膜文本块的拼接位置为待训练文本中的被执行掩膜操作的位置,得到第二文本特征。使用第二图像特征和第二文本特征训练编码器模块,得到已训练的编码器模块。
57.作为一种可选的示例,使用第二图像特征和第二文本特征训练编码器模块,得到已训练的编码器模块模块包括:
58.将第二图像特征和第二文本特征输入至译码器模块;
59.通过译码,得到译码后的第三图像特征和第三文本特征;
60.根据第三图像特征和第三文本特征,通过译码器模块进行重建,得到重建图像和重建文本;
61.通过对比重建图像和待训练图像,重建文本和待训练文本,计算损失;
62.将损失反向传播至编码器模块,得到已训练的编码器模块。
63.可选地,本实施例中,译码器模块为对通过编码的图像或文本而得到的图像或文本编码数据进行译码,生成图像或文本译码数据。损失,也为损失函数,时机器学习中用来估量模型的预测值与真实值的不一致程度,损失函数越小,表示模型性能越好。将第二图像特征和第二文本特征输入至译码器模块,通过译码器模块进行译码,得到第三图像特征和第三文本特征,通过译码器对第三图像特征和第三文本特征进行自动学习,学习成功后实现重建,得到重建图像和重建文本,通过对比重建图像和待训练图像,重建文本和待训练文本,计算损失函数,并将计算结果反向传播至编码器模块中,得到已训练的编码器模块。
64.作为一种可选的示例,将目标图像特征和目标文本特征用于下游任务包括:
65.根据目标图像特征对待测试图像进行分类,并根据目标文本特征对待测试文本序列进行分类;或者
66.通过目标图像特征识别待测试图像中的对象,并根据待测试文本序列识别待测试文本序列中的内容。
67.可选地,本实施例中,根据目标图像特征对待测试图像进行分类,根据目标文本特征对待测试文本序列进行分类,也就是从给定的分类集合中给待测试图像和待测试文本分配一个标签,或者,根据目标图像特征识别待测试图像中的对象,根据待测试文本序列识别待测试文本序列中的内容。
68.可选地,结合一种示例进行说明,本发明涉及一种自监督编码器训练方法,进行图像和文本的双模态自监督编码器预训练,文本具有较高的语义信息,当和图像同时进行自动编码器训练时,可以增强图像模型的表征能力,使得编码器既可以编码图像,又可以编码文本,实现了多模态。模型的实现流程如图2所示。
69.a.训练阶段:
70.步骤1:将待训练图像进行等分分块,分成n*n块,按照比例ratio(较小的ratio会让重建任务变的简单,encoder编码器模型很难学习到真正的语义信息,较大的ratio会缺失信息影响重建,最优ratio应由encoder编码器模型确定)随机掩膜mask,比例ratio可以按照实际情况进行调节。mask掉的图像块有n*n*ratio,未被mask掉的图像块有n*n*(1-ratio),将未被mask掉的图像块拼接成第一图像序列;
71.步骤2:对待训练文本进行等分分块,分成m块,按照比例ratio进行随机mask,mask
掉的文本块有m*ratio,未被mask掉的文本块有m*(1-ratio),将未被mask掉的文本块拼接成第一文本序列;
72.步骤3:未被mask掉的第一图像序列和第一文本序列一起拼接成长度为(m+n*n)*(1-ratio)的序列,并送入到encoder编码器模块中;
73.步骤4:encoder编码器模块输出的特征即为编码后的第一图像特征和第一文本特征,然后加入mask掉的图像块和mask掉的文本块,位置对应前面mask掉的的图像和文本位置;
74.步骤5:编码后的特征,mask掉的图像块和mask掉的文本块一起拼接后,得到第二图像特征和第二文本特征;
75.步骤6:将第二图像特征和第二文本特征输入到decoder译码器模块,输出译码后的特征,得到第三图像特征和第三文本特征;
76.步骤7:重建图像和文本,通过对比重建后的图像和待训练图像,重建后的文本和待训练文本来计算损失,反向传播至encoder编码器模块更新模型参数。
77.b.下游任务:
78.将原始待测试图像和待测试文本序列输入到encoder编码器模块中即可得到目标图像特征和目标文本特征。然后使用目标图像特征和目标文本特征用于下游任务。
79.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
80.根据本技术实施例的另一方面,还提供了一种自监督编码器训练装置,如图3所示,包括:
81.获取模块302,用于获取待测试图像和待测试文本序列;
82.输入模块304,用于将待测试图像和待测试文本序列输入至已训练的编码器模块中;
83.编码模块306,用于通过编码得到目标图像特征和目标文本特征;
84.处理模块308,用于将目标图像特征和目标文本特征用于下游任务。
85.可选地,本实施例中,编码器模块,也为自动编码器,是一种监督式学习,在三层神经网络中的输入层和输出层使用相同的数据。下游任务为利用预训练模型或组件的监督学习任务。
86.可选地,本实施例中,获取待测试图像和待测试文本序列,并将其输入至已训练的编码器模块中进行编码,输出得到待测试图像对应的目标图像特征和待测试文本序列对应的目标文本特征,将目标图像特征和目标文本特征用于下游任务,根据目标图像特征对待测试图像进行分类,根据目标文本特征对待测试文本序列进行分类,或者通过目标图像特征识别待测试图像中的对象,根据待测试文本序列识别待测试文本序列中的内容。
87.可选地,本实施例中,通过将图像和文本序列输入至已训练的编码器模块中,得到目标图像特征和目标文本特征,从而实现了多模态自动编码器的目的,进而解决了编码器无法多模态自动学习的技术问题。
88.作为一种可选的示例,输入模块包括:
89.获取单元,用于获取待训练图像和待训练文本;
90.处理单元,用于对待训练图像执行掩膜操作,得到第一图像序列并对待训练文本执行掩膜操作,得到第一文本序列;
91.训练单元,用于使用第一图像序列和第一文本序列训练编码器模块,得到已训练的编码器模块。
92.可选地,本实施例中,掩膜为用选定的图像、图形或物体,对待处理的图像或文本序列(全部或局部)进行遮挡,来控制图像处理的区域或处理过程。获取待训练图像和待训练文本,对待训练图像和待训练文本进行随机掩膜处理,得到待训练图像对应的第一图像序列和待训练文本对应的第一文本序列,使用第一图像序列和第一文本序列训练编码器模块,以得到已训练的编码器模块。
93.作为一种可选的示例,处理单元包括:
94.第一分块子单元,用于将待训练图像进行等分分块,得到第一数量的图像块;
95.第一处理子单元,用于对第一数量的图像块中的第一比例的图像块执行掩膜操作,得到掩膜图像块和未掩膜图像块;
96.第一拼接子单元,用于将未掩膜图像块进行拼接,得到第一图像序列。
97.可选地,本实施例中,第一数量可以为6,9,第一比例可以为10%,20%,将待训练图像进行等分分块,分成n*n等块,若n为3时,即得到第一数量为9的图像块,若第一比例为20%,对9块图像块中的随机2块(四舍五入后的结果)图像块执行掩膜操作,得到2块掩膜图像块和7块未掩膜图像块。
98.作为一种可选的示例,处理单元包括:
99.第二分块子单元,用于将待训练文本进行等分分块,得到第二数量的文本块;
100.第二处理子单元,用于对第二数量的文本块中第二比例的文本块执行掩膜操作,得到掩膜文本块和未掩膜文本块;
101.第二拼接子单元将未掩膜文本块进行拼接,得到第一文本序列。
102.可选地,本实施例中,第二数量可以为8,10,第二比例可以为10%,20%,将待训练文本进行等分分块,分成n等块,若n为8时,即得到第二数量为8的文本块,若第二比例为20%,对8块文本块中的随机2块(四舍五入后的结果)文本块执行掩膜操作,得到2块掩膜文本块和6块未掩膜文本块。
103.作为一种可选的示例,训练单元包括:
104.第三拼接子单元,用于将第一图像序列和第一文本序列进行拼接,得到第一序列;
105.输入子单元,用于将第一序列输入至未训练编码器模块;
106.编码子单元,用于通过编码,得到编码后的第一图像特征和第一文本特征;
107.训练子单元,用于使用第一图像特征和第一文本特征训练编码器模块,得到已训练的编码器模块。
108.可选地,本实施例中,将第一图像序列和第一文本序列一起拼接成第一序列,并将第一序列输入至编码器模块,通过编码器编码,输出得到第一图像特征和第一文本特征,使用第一图像特征和第一文本特征训练编码器模块,得到已训练的编码器模块。
109.作为一种可选的示例,训练子单元还用于:
110.将待训练图像中的掩膜图像块和第一图像特征拼接,得到第二图像特征,其中,掩膜图像块为将待训练图像进行等分分块得到第一数量的图像块后,第一数量的图像块中执行掩膜操作的图像块;
111.将待训练文本中的掩膜文本块和第一文本特征拼接,得到第二文本特征,其中,掩膜文本块为将待训练文本进行等分分块得到第二数量的文本块后,第二数量的文本块中执行掩膜操作的文本块;
112.使用第二图像特征和第二文本特征训练编码器模块,得到已训练的编码器模块。
113.可选地,本实施例中,将掩膜图像块和第一图像特征进行拼接,掩膜图像块的拼接位置为待训练图像中的被执行掩膜操作的位置,得到第二图像特征,将掩膜文本块和第一文本特征进行拼接,掩膜文本块的拼接位置为待训练文本中的被执行掩膜操作的位置,得到第二文本特征。使用第二图像特征和第二文本特征训练编码器模块,得到已训练的编码器模块。
114.作为一种可选的示例,训练子单元还用于:
115.将第二图像特征和第二文本特征输入至译码器模块;
116.通过译码,得到译码后的第三图像特征和第三文本特征;
117.根据第三图像特征和第三文本特征,通过译码器模块进行重建,得到重建图像和重建文本;
118.通过对比重建图像和待训练图像,重建文本和待训练文本,计算损失;
119.将损失反向传播至编码器模块,得到已训练的编码器模块。
120.可选地,本实施例中,译码器模块为对通过编码的图像或文本而得到的图像或文本编码数据进行译码,生成图像或文本译码数据。损失,也为损失函数,时机器学习中用来估量模型的预测值与真实值的不一致程度,损失函数越小,表示模型性能越好。将第二图像特征和第二文本特征输入至译码器模块,通过译码器模块进行译码,得到第三图像特征和第三文本特征,通过译码器对第三图像特征和第三文本特征进行自动学习,学习成功后实现重建,得到重建图像和重建文本,通过对比重建图像和待训练图像,重建文本和待训练文本,计算损失函数,并将计算结果反向传播至编码器模块中,得到已训练的编码器模块。
121.作为一种可选的示例,处理模块包括:
122.分类单元,用于根据目标图像特征对待测试图像进行分类,并根据目标文本特征对待测试文本序列进行分类;
123.或者通过目标图像特征识别待测试图像中的对象,并根据待测试文本序列识别待测试文本序列中的内容。
124.可选地,本实施例中,根据目标图像特征对待测试图像进行分类,根据目标文本特征对待测试文本序列进行分类,也就是从给定的分类集合中给待测试图像和待测试文本分配一个标签,或者,根据目标图像特征识别待测试图像中的对象,根据待测试文本序列识别待测试文本序列中的内容。
125.本实施例的其他示例请参见上述示例,在此不在赘述。
126.图4是根据本技术实施例的一种可选的电子设备的结构框图,如图4所示,包括处理器402、通信接口404、存储器406和通信总线408,其中,处理器402、通信接口404和存储器406通过通信总线408完成相互间的通信,其中,
127.存储器406,用于存储计算机程序;
128.处理器402,用于执行存储器406上所存放的计算机程序时,实现如下步骤:
129.获取待测试图像和待测试文本序列;
130.将待测试图像和待测试文本序列输入至已训练的编码器模块中;
131.通过编码得到目标图像特征和目标文本特征;
132.将目标图像特征和目标文本特征用于下游任务。
133.可选地,在本实施例中,上述的通信总线可以是pci(peripheral component interconnect,外设部件互连标准)总线、或eisa(extended industry standard architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。
134.存储器可以包括ram,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
135.作为一种示例,上述存储器406中可以但不限于包括上述自监督编码器训练装置中的获取模块302、输入模块304,编码模块306以及处理模块308。此外,还可以包括但不限于上述请求的处理装置中的其他模块单元,本示例中不再赘述。
136.上述处理器可以是通用处理器,可以包含但不限于:cpu(central processing unit,中央处理器)、np(network processor,网络处理器)等;还可以是dsp(digital signal processing,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field-programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
137.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
138.本领域普通技术人员可以理解,图4所示的结构仅为示意,实施上述自监督编码器训练方法的设备可以是终端设备,该终端设备可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图4其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图4所示的不同的配置。
139.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、rom、ram、磁盘或光盘等。
140.根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述自监督编码器训练方法中的步骤。
141.可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
142.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
143.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
144.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
145.在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
146.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
147.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
148.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:1.一种自监督编码器训练方法,其特征在于,包括:获取待测试图像和待测试文本序列;将所述待测试图像和所述待测试文本序列输入至已训练的编码器模块中;通过编码得到目标图像特征和目标文本特征;将所述目标图像特征和所述目标文本特征用于下游任务。2.根据权利要求1所述的方法,其特征在于,所述将所述待测试图像和所述待测试文本序列输入至已训练的编码器模块中包括:获取待训练图像和待训练文本;对所述待训练图像执行掩膜操作,得到第一图像序列,并对所述待训练文本执行掩膜操作,得到第一文本序列;使用所述第一图像序列和所述第一文本序列训练编码器模块,得到所述已训练的编码器模块。3.根据权利要求2所述的方法,其特征在于,所述对所述待训练图像执行掩膜操作,得到第一图像序列包括:将所述待训练图像进行等分分块,得到第一数量的图像块;对所述第一数量的图像块中的第一比例的图像块执行所述掩膜操作,得到掩膜图像块和未掩膜图像块;将所述未掩膜图像块进行拼接,得到所述第一图像序列。4.根据权利要求2所述的方法,其特征在于,所述对所述待训练文本执行掩膜操作,得到第一文本序列包括:将所述待训练文本进行等分分块,得到第二数量的文本块;对所述第二数量的文本块中第二比例的文本块执行所述掩膜操作,得到掩膜文本块和未掩膜文本块;将所述未掩膜文本块进行拼接,得到所述第一文本序列。5.根据权利要求2所述的方法,其特征在于,所述使用所述第一图像序列和所述第一文本序列训练编码器模块,得到所述已训练的编码器模块包括:将所述第一图像序列和所述第一文本序列进行拼接,得到第一序列;将所述第一序列输入至所述编码器模块;通过编码,得到编码后的第一图像特征和第一文本特征;使用所述第一图像特征和所述第一文本特征训练编码器模块,得到所述已训练的编码器模块。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一图像特征和所述第一文本特征训练编码器模块,得到所述已训练的编码器模块包括:将所述待训练图像中的掩膜图像块和所述第一图像特征拼接,得到第二图像特征,其中,所述掩膜图像块为将所述待训练图像进行等分分块得到第一数量的图像块后,所述第一数量的图像块中执行掩膜操作的图像块;将所述待训练文本中的掩膜文本块和所述第一文本特征拼接,得到第二文本特征,其中,所述掩膜文本块为将所述待训练文本进行等分分块得到第二数量的文本块后,所述第二数量的文本块中执行掩膜操作的文本块;
使用所述第二图像特征和所述第二文本特征训练所述编码器模块,得到所述已训练的编码器模块。7.根据权利要求6所述的方法,其特征在于,所述使用所述第二图像特征和所述第二文本特征训练所述编码器模块,得到所述已训练的编码器模块模块包括:将所述第二图像特征和所述第二文本特征输入至译码器模块;通过译码,得到译码后的第三图像特征和第三文本特征;根据所述第三图像特征和所述第三文本特征,通过所述译码器模块进行重建,得到重建图像和重建文本;通过对比所述重建图像和所述待训练图像,所述重建文本和所述待训练文本,计算损失;将所述损失反向传播至所述编码器模块,得到所述已训练的编码器模块。8.根据权利要求1所述的方法,其特征在于,所述将所述目标图像特征和所述目标文本特征用于下游任务包括:根据所述目标图像特征对所述待测试图像进行分类,并根据所述目标文本特征对所述待测试文本序列进行分类;或者通过所述目标图像特征识别所述待测试图像中的对象,并根据所述待测试文本序列识别所述待测试文本序列中的内容。9.一种自监督编码器训练装置,其特征在于,包括:获取模块,用于获取待测试图像和待测试文本序列;输入模块,用于将所述待测试图像和所述待测试文本序列输入至已训练的编码器模块中;编码模块,用于通过编码得到目标图像特征和目标文本特征;处理模块,用于将所述目标图像特征和所述目标文本特征用于下游任务。10.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至8任一项中所述的方法。11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
技术总结本发明公开了一种自监督编码器训练方法、装置、存储介质以及电子设备。该方法包括:获取待测试图像和待测试文本序列;将待测试图像和待测试文本序列输入至已训练的编码器模块中;通过编码得到目标图像特征和目标文本特征;将目标图像特征和目标文本特征用于下游任务。本发明解决了编码器无法多模态自动学习的技术问题。问题。问题。
技术研发人员:胡郡郡 唐大闰
受保护的技术使用者:北京明略昭辉科技有限公司
技术研发日:2022.06.30
技术公布日:2022/11/1