1.本公开的实施例主要涉及计算机技术领域,并且更具体地,涉及数据增强的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术:2.随着技术的发展,人工智能(artificial intelligence,ai)已经被应用给到各行各业。在各种领域中的ai的应用都依赖于网络模型,而网络模型常基于大量的数据被训练得到的。
3.一般而言,用于训练的数据集中数据越多,那么对于网络模型越有利。那么在已有的数据集的基础上,如何通过数据增强来实现数据集的扩充是当前需要解决的问题之一。
技术实现要素:4.根据本公开的示例实施例,提供了一种数据增强的方案,能够得到新的图像,以用于数据集的扩充。
5.在本公开的第一方面,提供了一种数据增强的方法,包括:基于第一图像的第一部分和第二图像的第二部分生成第三图像,第一图像具有第一标签,第二图像具有第二标签;通过从连续概率分布中进行随机采样,得到随机参数;基于第一标签、第二标签和随机参数,确定第三图像的第三标签;以及将具有第三标签的第三图像添加到用于训练网络模型的训练集中。
6.在本公开的第二方面,提供了一种电子设备,包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,该指令当由至少一个处理单元执行时使得电子设备执行动作,动作包括:基于第一图像的第一部分和第二图像的第二部分生成第三图像,第一图像具有第一标签,第二图像具有第二标签;通过从连续概率分布中进行随机采样,得到随机参数;基于第一标签、第二标签和随机参数,确定第三图像的第三标签;以及将具有第三标签的第三图像添加到用于训练网络模型的训练集中。
7.在本公开的第三方面,提供了一种数据增强的装置,包括:图像生成模块,被配置为基于第一图像的第一部分和第二图像的第二部分生成第三图像,第一图像具有第一标签,第二图像具有第二标签;参数确定模块,被配置为通过从连续概率分布中进行随机采样,得到随机参数;以及标签确定模块,被配置为基于第一标签、第二标签和随机参数,确定第三图像的第三标签;以及图像添加模块,被配置为将具有第三标签的第三图像添加到用于训练网络模型的训练集中。
8.在本公开的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质具有在其上存储的机器可执行指令,该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。
9.本公开的第五方面,提供了一种计算机程序产品,包括计算机可执行指令,其中计
算机可执行指令在被处理器执行时实现根据本公开的第一方面所描述的方法。
10.本公开的第六方面,提供了一种电子设备,包括:处理电路,被配置为执行根据本公开的第一方面所描述的方法。
11.提供发明内容部分是为了以简化的形式来介绍一系列概念,它们在下文的具体实施方式中将被进一步描述。发明内容部分不旨在标识本公开的关键特征或必要特征,也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
12.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
13.图1示出了混合图像的示意图;
14.图2示出了根据本公开的一些实施例的示例过程的流程图;
15.图3a-图3b示出了根据本公开的一些实施例的第一个精确的概率的比较的示意图;
16.图4示出了根据本公开的实施例的示例装置的框图;以及
17.图5示出了可以用来实施本公开的实施例的示例设备的框图。
具体实施方式
18.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
19.在本公开的实施例中,术语“网络模型”也可以被称为神经网络模型、神经网络、机器学习(machine learning,ml)模型、深度学习(deep learning,dl)模型、深度网络等,本公开对此不限定。
20.为了更有效地训练网络模型,提出了数据增强的机制。通过数据增强,能够扩展训练空间,并且能够避免网络模型过拟合。已有的数据增强方案例如包括混合(mixup)和裁剪混合(cutmix)。在混合方案中,可以基于给定的两张图像通过混合得到新图像,且新图像的类别为初始的两张图像的类别的加权和。裁剪混合进一步提出了,通过裁剪粘贴的方式来混合两张图像,并且确定类别时每张图像的权重是面积比。
21.但是,目前的方案不够准确,以图1为例,如果将图像110和图像120进行混合,例如得到混合图像132至138,即使是人工进行标注,也无法准确地确定图像110中的狗与图像120中的猫两者之间的比例。此时,如果按照面积比来确定权重,显然是不合适的。例如,以混合图像134为例,即使其中图像110的面积比更大,但是图像110的前景区域几乎被全部覆盖,此时如果给“狗”赋予较大的权重,那么会得出错误的标签。例如,以混合图像138为例,尽管该图像是从图像110和图像120混合得来的,但是此时混合图像138中既没有猫也没有狗,此时不管如果依然基于“狗”和“猫”来确定标签,显然是不准确的。
22.为了至少部分地解决上述技术方案中的缺陷,本公开的实施例提供了一种数据增强的方案,通过考虑连续概率分布中的随机参数来确定合成图像的标签,以此能够模拟人
类打标签时的不确定性,从而使得得到的标签更加准确,进而该合成图像能够被添加到训练集中实现数据增强。
23.图2示出了根据本公开的一些实施例的示例过程200的流程图。应当理解,过程200还可以包括未示出的附加框和/或可以省略所示出的某些框。本公开的范围在此方面不受限制。
24.在框210,基于第一图像的第一部分和第二图像的第二部分生成第三图像,第一图像具有第一标签,第二图像具有第二标签。在框220,通过从连续概率分布中进行随机采样,得到随机参数。在框230,基于第一标签、第二标签和随机参数,确定第三图像的第三标签。在框240,将具有第三标签的第三图像添加到用于训练网络模型的训练集中。
25.以此方式,本公开实施例的方案中在基于第一图像和第二图像生成第三图像时,可以基于随机参数来确定第三图像的第三标签,以此能够模拟人类打标签时的不确定性,从而使得得到的标签更加准确,使得第三图像能够被用于训练集的数据增强。作为示例,本公开的实施例中的数据增强方案可以被称为随机混合(randmix)方案。
26.在一些实施例中,可以将第一图像表示为xa,将第二图像表示为xb,将第三图像表示为那么可以通过下面的式(1)得到第三图像。
[0027][0028]
示例性地,第一图像、第二图像和第三图像具有相同的大小(或称尺寸),例如表示为h
×
w。在式(1)中,m∈{0,1}
hw
为二进制掩码,表示将第一图像填充到第三图像中的位置;“1”为所有元素均为1且与m具有相同大小的张量;
⊙
表示逐元素相乘。示例性地,第三图像可以为合成图像或混合图像或其他名称等,本公开对此不限定。
[0029]
示例性地,可以假设图像的标签共包括的类别数量为c。假设第一图像的第一标签指示该第一图像的第一类别为a,那么可以将第一标签表示为c维的向量(称为第一向量),该第一向量中与类别a对应的元素为1,其余元素均为0,例如可以将第一向量表示为ya。设第二图像的第二标签指示该第二图像的第二类别为b,那么可以将第二标签表示为c维的向量(称为第二向量),该第二向量中与类别b对应的元素为1,其余元素均为0,例如可以将第二向量表示为yb。
[0030]
本公开的实施例中,可以基于第一标签和第二标签来确定第三图像的第三标签。假设将第三标签对应的第三向量表示为那么可以基于第一向量和第二向量的加权和来确定第三向量,如下式(2)所示。
[0031][0032]
示例性地,可以将λ称为第一权重,将1-λ称为第二权重,两者之和等于1。
[0033]
在本公开的一些实施例中,可以基于随机参数和类别参数中的至少一项来确定第一权重和第二权重。
[0034]
在一些实施例中,可以将随机参数表示为λr,可选地,该随机参数可以是从连续概率分布中通过随机采样而确定的。例如,可以从贝塔(beta)分布中随机采样出该随机参数,表示为如下的式(3):
[0035]
λr~beta(α,α)
ꢀꢀꢀ
(3)
[0036]
在式(3)中,α表示贝塔分布的参数。示例性地,贝塔分布可以简称为b分布,可以被
表示为伯努利分布和二项式分布的共轭先验分布的密度函数。
[0037]
可选地,在另一些实施例中,可以从均匀(uniform)分布中采样得到随机参数。
[0038]
在一些实施例中,可以将类别参数表示为λs,示例性地,可以基于网络模型的预测结果,确定与第一标签指示的第一类别所对应的第一概率以及与第二标签指示的第二类别所对应的第二概率,并基于第一概率和第二概率,确定类别参数。
[0039]
在一些示例中,可以基于预测结果所指示的多个类别的多个网络得分,确定对应的多个自然常数值。随后基于第一自然常数值与多个自然常数值之和之间的比值来确定第一概率,基于第二自然常数值与多个自然常数值之和之间的比值来确定第二概率。第一自然常数值为多个自然常数值中与第一类别对应的自然常数值,第二自然常数值为多个自然常数值中与第二类别对应的自然常数值。
[0040]
可选地,可以将第三图像输入到网络模型,得到网络模型所预测的网络得分,表示为概率空间其中表示实数空间。示例性地,可以通过下式(4)将i分别限定为a和b来得到第一概率和第二概率。
[0041][0042]
在式(4)中,e为自然常数,pj表示上述概率空间p中的第j维。并且,pj表示与c类中第j个类别所对应的网络得分,表示第一自然常数值,表示第二自然常数值。
[0043]
示例性地,可以将第一概率表示为第二概率表示为并通过式(5)得到类别参数。
[0044][0045]
可理解的是,由于网络模型的预测结果可以在一定程度上指示前景对象的类别,因此本公开的实施例通过引入类别参数能够在一定程度上实现仅对特定的目标类别进行损失裁剪。并且可理解,在执行数据增强时,如果第三图像中不存在第一图像中的有效对象(如前景对象),那么通过类别参数可以对网络模型具有较小的影响。
[0046]
在一些示例中,可以基于初始权重、随机参数和类别参数来确定第一权重,随后确定第二权重。可选地,第一权重可以等于初始权重、随机参数和类别参数三者的加权和,例如表示为式(6)。
[0047]
λ=(1-r
1-r2)λ0+r1λr+r2λsꢀꢀꢀ
(6)
[0048]
在式(6)中,r1和r2为预定的0和1之间的超参数,λ0表示初始权重。可理解,如果r1=1,那么λ=λr表示第一权重是完全随机的,进而得到的第三图像的目标置信度也是完全随机的。
[0049]
可选地,初始权重λ0可以表示第一图像上的第一部分的面积在第三图像中的比例。在一些示例中,初始权重可以为基于裁剪混合方案所确定的第一图像的权重,本公开中不再详述。
[0050]
以此方式,结合前述式(2),可以确定将第一图像的一部分和第二图像的一部分进行混合,所得到的第三图像的第三标签。可理解,该方案对于各种情况都是适用的,即使针对如图1所示的混合图像134或138都能够明确地得到较为精确的标签。
[0051]
在本公开的一些实施例中,第一图像和第二图像可以来源于用于训练网络模型的训练集。可选地,可以将具有第三标签的第三图像添加到用于训练网络模型的训练集中。如此能够实现对于训练集的扩充。进而还可以基于扩充后的训练集对网络模型进行训练,得到更新后的网络模型。在一些实施例中,可以基于如式(7)的损失函数(表示为)对网络模型进行训练。
[0052][0053]
在式(7)中,表示使用柔性最大值(softmax)或者具有软化标签的二值交叉熵所计算得到的损失值,表示正则化项,η表示用于控制正则化项的影响的超参数。
[0054]
以此方式,本公开的实施例中通过在损失函数中增加正则化项,能够基于贝塔分布的随机采样所导致的网络信心不足的问题,从而使得网络的预测更加自信。可选地,正则化项可以类似于仅针对正类别的惩罚的合页(hinge)损失。在一些示例中,正则化项可以通过式(8)来确定。
[0055][0056]
在式(8)中,max表示取最大值,bk表示二值向量空间b中的元素,其中b=ya∧yb且b∈{0,1}c,其中∧表示逻辑运算符按位异或。
[0057]
基于此,本公开的实施例能够通过数据增强得到具有第三标签的第三图像,并且由于考虑了连续概率分布中的随机参数,可以使得第三标签更加符合人类标注的特性。进一步地,该第三图像可以被添加到训练集中,实现了训练集的扩充,进而实现对网络模型的更新。
[0058]
应注意的是,本公开的实施例的数据增强的方案可以被应用于各种网络模型,包括但不限于视觉变换器(vision transformer)、卷积神经网络(convolutional neural network)等各种架构的网络模型。并且,本公开的实施例的方案简单,计算成本低,可以通过若干行简答的代码实现,例如下面示出了实现本公开的实施例的算法1(algorithm 1)的伪代码(pseudo-code):
[0059][0060][0061]
上面结合图2的实施例,本公开提供了一种数据增强的方案(称为randmix),相比于已有方案,本方案能够提升标签的精确性,提升网络的容量和性能。
[0062]
如下表1示出了针对开源图像集(imagenet),多种不同的方案之间在多个维度的比较。表1中示出的网络模型包括:卷积网络和变换网络,其中卷积网络如connext,变换网络如swin、deit、交叉协方差图像变换器(cross-covariance image transformer,xcit)。
[0063]
在表1中,参数量(#params)表示对应的网络模型的参数量。浮点运算数(floating point operations,flops)可以用来衡量模型的复杂度。纪元(epoch)表示是在整个训练数据集中的工作次数。第一个精确(top-1acc)表示概率最大的一个被认为是正确答案。应注意的是,表1中该列(倒数第二列)的基准是基于已有的混合、裁剪混合等通过广泛的调整和正则化后得到的调整后的基准。最后一列表示使用本方案之后的第一个精确的概率。
[0064]
表1
[0065][0066][0067]
从上述表1可以看出,针对各个网络模型,通过本公开的方案能够提升第一个精确的概率。
[0068]
另外,通过本公开的方案,标签空间的随机化能够实现总体改进。如图3a示出了针对deit-s网络模型的比较结果,可以看出第一个精确的概率与本公开中的参数λs、λr和之间的关联。
[0069]
另外,如图3b所示,示出了针对deit-s网络模型的随机比率对第一个精确的概率的消融(ablation)影响,其中r1=1表示目标置信度是完全随机的。
[0070]
并且,通过在已有的开源数据集对本公开的方案进行评估,本方案能够带来更好的鲁棒性。
[0071]
应理解,在本公开的实施例中,“第一”,“第二”,“第三”等只是为了表示多个对象可能是不同的,但是同时不排除两个对象之间是相同的,不应当解释为对本公开实施例的任何限制。
[0072]
还应理解,本公开的实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便,不应构成特别的限定,各种方式、类别、情况以及实施例中的特征在符合逻辑的情况下,可以相互结合。
[0073]
还应理解,上述内容只是为了帮助本领域技术人员更好地理解本公开的实施例,而不是要限制本公开的实施例的范围。本领域技术人员根据上述内容,可以进行各种修改或变化或组合等。这样的修改、变化或组合后的方案也在本公开的实施例的范围内。
[0074]
还应理解,上述内容的描述着重于强调各个实施例之前的不同之处,相同或相似之处可以互相参考或借鉴,为了简洁,这里不再赘述。
[0075]
图4示出了根据本公开的一些实施例的示例装置400的示意框图装置400可以通过
软件、硬件或者两者结合的方式实现。在一些实施例中,装置400可以被实现为终端设备。本公开的实施例中,终端设备可以为台式计算机、平板电脑、智能电话等,本公开对此不限定。
[0076]
如图4所示,装置400包括图像生成模块410、参数确定模块420、标签确定模块430和图像添加模块440。图像生成模块410被配置为基于第一图像的第一部分和第二图像的第二部分生成第三图像,所述第一图像具有第一标签,所述第二图像具有第二标签。参数确定模块420被配置为通过从连续概率分布中进行随机采样,得到随机参数。标签确定模块430被配置为基于所述第一标签、所述第二标签和所述随机参数,确定所述第三图像的第三标签。图像添加模块440被配置为将具有第三标签的第三图像添加到用于训练网络模型的训练集中。
[0077]
在一些实施例中,参数确定模块420还可以被配置为:基于网络模型的预测结果,确定与第一标签指示的第一类别所对应的第一概率以及与第二标签指示的第二类别所对应的第二概率;基于第一概率和第二概率,确定类别参数。
[0078]
在一些示例中,标签确定模块430可以被配置为基于第一标签、第二标签、随机参数和类别参数,来确定第三标签。
[0079]
在一些示例中,标签确定模块430可以被配置为基于随机参数和类别参数,确定第一权重和第二权重;通过确定第一标签对应的第一向量与第二标签对应的第二向量的加权和,得到第三标签,其中第一向量具有第一权重,第二向量具有第二权重。
[0080]
示例性地,确定第一权重包括基于初始权重、随机参数和类别参数的加权和来确定第一权重。可选地,初始权重表示第一部分的面积在第三图像中的比例。
[0081]
在一些实施例中,参数确定模块420可以被配置为:通过以下方式确定第一概率和所述第二概率:基于预测结果所指示的多个类别的多个网络得分,确定对应的多个自然常数值;基于与第一类别对应的第一自然常数值在多个自然常数值之和中的比例,确定第一概率;以及基于与第二类别对应的第二自然常数值在多个自然常数值之和中的比例,确定第二概率。
[0082]
可选地,连续概率分布为贝塔分布。可选地,第一图像、第二图像和第三图像具有相同的尺寸。
[0083]
图4的装置400能够用于实现上述结合图2所述的过程200,为了简洁,这里不再赘述。
[0084]
本公开的实施例中对模块或单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时也可以有另外的划分方式,另外,在公开的实施例中的各功能单元可以集成在一个单元中,也可以是单独物理存在,也可以两个或两个以上单元集成为一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0085]
图5示出了可以用来实施本公开的实施例的示例设备500的框图。应当理解,图5所示出的设备500仅仅是示例性的,而不应当构成对本文所描述的实现方式的功能和范围的任何限制。例如,可以使用设备500来执行上文描述的过程200。
[0086]
如图5所示,设备500是通用计算设备的形式。计算设备500的组件可以包括但不限于一个或多个处理器或处理单元510、存储器520、存储设备530、一个或多个通信单元540、一个或多个输入设备550以及一个或多个输出设备560。处理单元510可以是实际或虚拟处理器并且能够根据存储器520中存储的程序来执行各种处理。在多处理器系统中,多个处理
单元并行执行计算机可执行指令,以提高计算设备500的并行处理能力。
[0087]
计算设备500通常包括多个计算机存储介质。这样的介质可以是计算设备500可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器520可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(random access memory,ram))、非易失性存储器(例如,只读存储器(read only memory,rom)、电可擦除可编程只读存储器(electrically erasable programmable read only memory,eeprom)、闪存)或它们的某种组合。存储设备530可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备500内被访问。
[0088]
计算设备500可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图5中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器520可以包括计算机程序产品525,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实现方式的各种方法或动作。
[0089]
通信单元540实现通过通信介质与其他计算设备进行通信。附加地,计算设备500的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备500可以使用与一个或多个其他服务器、网络个人计算机(personal computer,pc)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
[0090]
输入设备550可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备560可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备500还可以根据需要通过通信单元540与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备500交互的设备进行通信,或者与使得计算设备500与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(input/output,i/o)接口(未示出)来执行。
[0091]
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,提供了一种计算机程序产品,其上存储有计算机程序,所述程序被处理器执行时实现上文描述的方法。
[0092]
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0093]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指
令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0094]
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0095]
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0096]
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。
技术特征:1.一种用于数据增强的方法,包括:基于第一图像的第一部分和第二图像的第二部分生成第三图像,所述第一图像具有第一标签,所述第二图像具有第二标签;通过从连续概率分布中进行随机采样,得到随机参数;基于所述第一标签、所述第二标签和所述随机参数,确定所述第三图像的第三标签;以及将具有所述第三标签的所述第三图像添加到用于训练网络模型的训练集中。2.根据权利要求1所述的方法,还包括:基于网络模型的预测结果,确定与所述第一标签指示的第一类别所对应的第一概率以及与所述第二标签指示的第二类别所对应的第二概率;以及基于所述第一概率和所述第二概率,确定类别参数。3.根据权利要求2所述的方法,其中确定所述第三标签包括:基于所述第一标签、所述第二标签、所述随机参数和所述类别参数,来确定所述第三标签。4.根据权利要求2或3所述的方法,其中确定所述第三标签包括:基于所述随机参数和所述类别参数,确定第一权重和第二权重;以及通过确定所述第一标签对应的第一向量与所述第二标签对应的第二向量的加权和,得到所述第三标签,其中所述第一向量具有所述第一权重,所述第二向量具有所述第二权重。5.根据权利要求4所述的方法,其中确定所述第一权重包括:基于初始权重、所述随机参数和所述类别参数的加权和确定所述第一权重,其中所述初始权重表示所述第一部分的面积在所述第三图像中的比例。6.根据权利要求2至5中任一项所述的方法,还包括通过以下方式确定所述第一概率和所述第二概率:基于所述预测结果所指示的多个类别的多个网络得分,确定对应的多个自然常数值;基于与所述第一类别对应的第一自然常数值在所述多个自然常数值之和中的比例,确定所述第一概率;以及基于与所述第二类别对应的第二自然常数值在所述多个自然常数值之和中的比例,确定所述第二概率。7.根据权利要求1至6中任一项所述的方法,其中所述连续概率分布为贝塔分布。8.根据权利要求1至7中任一项所述的方法,其中所述第一图像、所述第二图像和所述第三图像具有相同的尺寸。9.一种电子设备,包括:至少一个处理单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时使得所述电子设备执行动作,所述动作包括:基于第一图像的第一部分和第二图像的第二部分生成第三图像,所述第一图像具有第一标签,所述第二图像具有第二标签;通过从连续概率分布中进行随机采样,得到随机参数;
基于所述第一标签、所述第二标签和所述随机参数,确定所述第三图像的第三标签;以及将具有所述第三标签的所述第三图像添加到用于训练网络模型的训练集中。10.一种数据增强的装置,包括:图像生成模块,被配置为基于第一图像的第一部分和第二图像的第二部分生成第三图像,所述第一图像具有第一标签,所述第二图像具有第二标签;参数确定模块,被配置为通过从连续概率分布中进行随机采样,得到随机参数;标签确定模块,被配置为基于所述第一标签、所述第二标签和所述随机参数,确定所述第三图像的第三标签;以及图像添加模块,被配置为将具有所述第三标签的所述第三图像添加到用于训练网络模型的训练集中。11.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。12.一种计算机程序产品,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。
技术总结本公开的实施例涉及一种数据增强的方法和电子设备。该方法包括:基于第一图像的第一部分和第二图像的第二部分生成第三图像,第一图像具有第一标签,第二图像具有第二标签;通过从连续概率分布中进行随机采样,得到随机参数;基于第一标签、第二标签和随机参数,确定第三图像的第三标签;以及将具有第三标签的第三图像添加到用于训练网络模型的训练集中。以此方式,本公开实施例的方案中在基于第一图像和第二图像生成第三图像时,可以基于随机参数来确定第三图像的第三标签,以此能够模拟人类打标签时的不确定性,从而使得得到的标签更加准确,使得第三图像能够被用于训练集的数据增强。强。强。
技术研发人员:柏松 孙书洋 陈杰能 卢宾
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2022.07.22
技术公布日:2022/11/1