一种两阶段处理多模态服装图像生成方法

专利2024-12-02  32



1.本发明涉及图像处理方法领域,具体讲的是一种两阶段处理多模态服装图像生成方法。


背景技术:

2.条件图像合成通过给定一定的条件来创建新的图像。现有的方法主要是基于 conditional gan,通过输入各种单一模态信息,例如输入条件为文本,草图或者是语义分割图。基于草图的图像合成是图像到图像转换任务下的一项重要任务,它通过输入草图来得到所需的目标图像,主要有两种方法分别是基于pix2pix2的方法和基于cyclegan的方法,前者是一个conditional gan,需要配对的数据集,后者包含一对 gan,可以不需要配对的数据集。基于文本的图像生成则是通过输入文本描述来生成语义一致的图像,主要分为基于cnn的方法直接从给定的文本嵌入中生成像素,例如 dmgan,attngan等,以及近期基于transformer的方法,如dall-e和cogview等,通过vqgan可以将图像离散化表示,从而使用transformer建模。基于语义分割图的图像生成则是把具有空间布局信息的语义分割图转化为逼真的图像。
3.基于草图的图像生成具有挑战性和局限性,主要是草图包含的信息十分有限,构成草图的线条非常扭曲不规则,与目标图像的边缘难以吻合,难以生成内容细节丰富的图像。而基于文本的图像生成任务中,目前最先进的基于cnn的文本引导图像合成方法只能产生低质量的图像,无法有效地生成复杂场景的图像,而基于 transformer的方法成本过高,需要大量的数据集以及过高的算力支持。


技术实现要素:

4.本发明要解决的技术问题是提供一种两阶段处理多模态服装图像生成方法。
5.本发明采用以下技术方案:
6.一种两阶段处理多模态服装图像生成方法,包括以下步骤:
7.步骤1、定义多模态条件信息c,c代表给图像样本施加编码后的草图、文本或声音中的一种或多种条件,所述编码指的是将草图、文本或声音量化表示为离散token序列;
8.步骤2、从原始图像样本集中随机抽取两个样本,分别给两个样本的施加随机一种控制条件序列c,将施加控制条件序列的两个样本输入transformer网络中,利用多种掩码策略分别计算每个样本的掩码token序列,得到每个样本在不同掩码策略下对应的掩码token序列;
9.步骤3、交换两个样本施加的随机控制条件序列,将施加控制条件序列的两个样本输入transformer网络中,利用多种掩码策略分别计算每个样本的掩码token序列,得到交换后的每个样本在不同掩码策略下对应的掩码token序列;
10.步骤4、利用每个样本在不同掩码策略下对应的掩码token序列和交换后的每个样本在不同掩码策略下对应的掩码token序列,计算每种掩码策略下的交叉熵损失函数 l1和
相关性损失函数l2,进而计算得到每种掩码序列下的总损失函数l,通过梯度反向传播,更新transformer的参数,判断每种掩码序列下的总损失函数是否均达到最小值,若是,转到下一步,否则转到步骤2;
11.步骤5、保存最后一次的transformer的参数,作为最终transformer网络;
12.步骤6、将待处理草图、文本和声音样本中一种或多种的组合输入相应的编码器,得到待处理样本对应的离散码本token序列,将离散码本token序列输入最终 transformer网络,得到待处理样本对应的预测token序列;
13.步骤7、将预测token序列输入解码器,得到重构图像。
14.进一步的,步骤1中,对文本进行编码的方式为,通过wordpieces将所有的文本单词进行token化,即wordpiece是每次从词表中选出两个子词合并成新的子词转化成token序列t={t1,

,ti,tn},其中ti是第i个token,n是token序列的长度;
15.对音频进行编码的方式为:器首先使用卷积神经网络提取器对原始音频进行编码,从而获得音频表示,即帧特征序列,然后通过向量量化模块把每帧特征转变为离散特征,即token序列;
16.对草图进行编码的方式为,则通过图像编码器进行编码,得到草图的量化表示,即离散码本token序列。
17.进一步的,步骤2和步骤3中的多种掩码策略包括以下五种掩码策略:(1)随机掩盖所需数量的token;(2)掩盖所有token;(3)boxed area masking,对图像的一些boxed区域内的token进行掩盖;(4)对boxed area masking的否定,保留boxed area的token,对图像其余部分的token进行屏蔽;(5)随机保留一些图像。多模态信息构成的离散联合token序列由一个特殊标记[rel] 计算相关性,[mask]标记则用来根据上述的掩码策略掩盖联合token序列中的 token。
[0018]
进一步的,所述步骤4中计算交叉熵损失函数l1的公式为:
[0019][0020]
其中,m是码本对应的掩码索引,是步骤2输入的联合token序列经过相应的掩码策略后得到的掩码token序列,是由掩码token序列得到的预测的掩码位置,c 为施加的控制条件序列,为确定和c后出现的概率,由softmax分类器计算得到。
[0021]
进一步的,所述步骤4中计算相关性损失函数l2的公式为:
[0022][0023]
其中,m是码本对应的掩码索引,是输入的离散token序列经过相应的掩码策略后得到的掩码token序列,是由掩码token序列得到的预测的掩码位置,c为步骤2交换前施加的控制条件序列,交换后的控制条件序列,为确定和c 后出现的概率,为确定和后出现的概率,和由softmax分类器计算得到。
[0024]
进一步的,所述步骤4中总损失函数的计算公式为l=λl1+(1-λ)l2,其中λ是预设超参数。
[0025]
本发明采用以上技术方案后,与现有技术相比,具有以下优点:
[0026]
现有的条件图像合成倾向于仅考虑单个模态输入,例如文本、参考图像,但很少考虑声音这种常见的模态信息,并且没有考虑到多模态信息之间的协同作用,本发明提出了一个两阶段多模态图像生成方法,它可以在多个模态输入条件下合成服装图像,即本发明首次将文本、音频和视觉图像作为条件引入图像合成任务。通过单独的编码器处理每个模态,并在第一阶段学习它们的离散量化表示,在第二阶段使用 transformer执行掩模序列建模,最后通过图像解码器合成目标服装图像,在这期间改进了掩码策略以适应多模态生成任务。本发明的应用范围广泛,合成效果质量高,可以有效地生成高度可控的服装图像。
[0027]
下面结合附图和实例对本发明进行详细说明。
附图说明
[0028]
图1是本发明的总体流程示意图;
[0029]
图2是学习图像的离散量化表示流程示意图;
[0030]
图3是以文本为条件的图像生成预测阶段流程示意图;
[0031]
图4是多模态服装图像生成结果示意图。
具体实施方式
[0032]
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0033]
本发明的总体技术方案如图1所示,具体包括以下阶段:
[0034]
1.多模态融合阶段:首先采用单独的编码器分别对各个模态的输入进行编码得到联合的离散token序列。
[0035]
2.图像生成阶段:将上一步得到的联合离散token序列作为transformer的输入,通过transformer建模多模态输入与目标图像之间的相关性,从而预测出目标图像 token序列,最后通过图像解码器得到目标图像。
[0036]
一、多模态融合阶段
[0037]
本发明首先通过单独的编码器对各个不同的模态信息进行编码,文本是通过 wordpieces将所有的文本单词进行token化,即wordpiece是每次从词表中选出两个子词合并成新的子词转化成token序列t={t1,

,ti,tn},其中ti是第i个token,n 是token序列的长度。
[0038]
音频编码器首先使用卷积神经网络提取器对原始音频进行编码,从而获得音频表示,即帧特征序列,然后通过向量量化模块把每帧特征转变为离散特征,即token序列。
[0039]
如图2所示,草图和图像则通过图像编码器进行编码,得到它们的量化表示,即离散码本token序列。图像编码器目标是学习将视觉图像转换为特征向量图的最佳表示方法,其中n是码本集的维数。对得到的特征向量图通过量化步骤q进行离散化:
[0040][0041]
其中学习向量量化的码本其中是码本中的第k个码字,k是码字的数量。离散码本token序列在对抗训练中学习到最可能接近原图像块的码本元素,即我们用码本元素表示图像的某一块。
[0042]
特征向量图经过量化步骤后得到的zq随后被输入解码器后得到重建图像,解码过程为:
[0043][0044]
其中x为分别输入的服装图像或服装草图,e为图像编码器,q为量化步骤,g为图像解码器,为重建服装图像。随后将重建图像输入到卷积判别器中判断真假,并通过提取原始图像与重建图像特征计算损失,通过反向梯度传播分批次更新编码器,解码器以及判别器的参数。
[0045]
本阶段创新在于首次将文本,音频与草图三种结构差异巨大的条件信息通过量化表示融合在一起,形成一个联合的离散token序列,以供双向transformer建模。在得到三种模态的离散token序列之后,本发明将它们串联在一起得到一个联合的离散 token序列,并加入位置编码后作为双向transformer的输入。
[0046]
二、图像生成阶段
[0047]
我们现在有文本、音频和视觉图像的输入,它们的组合联合标记序列z应该产生目标图像y。该阶段双向transformer根据输入的联合token序列预测目标图像的token序列,即掩码序列建模。在此过程中还训练了一个相关估计器,以鼓励我们的非自回归转换器学习多模态输入和目标图像之间的相关性。
[0048]
在训练阶段,首先给定经过编码后的多模态条件信息c,输入到transformer 的多模态条件c有以下组合: (tc,ac,vc),(tc,ac),(tc,vc),(ac,vc),(tc),(ac),(vc),(none),其中 (tc,ac,vc)表示同时输入三种模态的条件信息,(tc,ac)表示同时使用文本和音频,(tc,vc)表示同时使用文本和图像,(tc),(ac)或(vc)表示仅使用文本、图像或音频,并且(none)表示不使用任何一种条件。
[0049]
然后为每种不同组合的多模态输入构成离散联合token序列采用五种掩码策略,即采用掩码序列建模来进行训练:(1)随机掩盖所需数量的token;(2) 掩盖所有token;(3)boxed area masking,对图像的一些boxed区域内的token 进行掩盖;(4)对boxed area masking的否定,保留boxed area的token,对图像其余部分的token进行屏蔽;(5)随机保留一些图像。多模态信息构成的离散联合token序列由一个特殊标记[rel]计算相关性,[mask]标记则用来根据上述的掩码策略掩盖联合token序列中的token。最后用于训练 transformer的损失函数为:
[0050][0051]
其中m是掩码索引,是要预测的掩码位置,是输入的联合token序列经过以上五种掩码策略后得到的掩码token序列,c表示为控制条件序列。
[0052]
transformer在训练过程中通过相关性估计器学习多模态输入和目标图像之间的相关性,使用一个二元分类器来对正样本和负样本进行分类。将与掩码序列建模任务相同的训练样本作为正例,交换两个训练样本的控制条件,构建负例。相关任务的损失函数l2由下式给出:
[0053][0054]
其中c是输入的多模态联合token序列,m是掩码索引,是经过掩码策略之后得到的掩码token序列,表示为交换另一个样本的控制条件序列,并以此构建负例。那么训练本发明模型的总损失为:
[0055]
l=λl1+(1-λ)l2ꢀꢀ
(5)
[0056]
其中λ是平衡两个损失的超参数,本发明将λ的值设置为0.7。得到的总损失函数之后,通过梯度反向传播,更新transformer的参数。
[0057]
通过输入多模态条件的组合来生成目标图像,如图3所示,指定文本条件作为 transformer的输入,在预测过程中,transformer可以使用文本编码器根据输入文本中提取的文本信息生成连贯的图像token序列,最后可以使用图像解码器将生成的图像token序列进一步重构为目标图像。
[0058]
服装图像生成结果
[0059]
图4为多模态图像生成结果,本发明使用从互联网上搜集的带有文本描述的服装图像数据集,并制作了与服装图像的对应草图,以及与文本描述对应的音频,服装图像尺寸为256
×
256。
[0060]
图4中(a)-(c)分别表示在输入条件为文本,音频以及草图下的服装图像生成结果, (d)-(f)分别表示输入条件为文本-音频,文本-草图以及音频-草图的服装图像生成结果,(g)表示输入条件为文本,音频以及草图同时存在的服装图像生成结果。
[0061]
以上所述为本发明最佳实施方式的举例,其中未详细述及的部分均为本领域普通技术人员的公知常识。本发明的保护范围以权利要求的内容为准,任何基于本发明的技术启示而进行的等效变换,也在本发明的保护范围之内。

技术特征:
1.一种两阶段处理多模态服装图像生成方法,其特征在于,包括以下步骤:步骤1、定义多模态条件信息c,c代表给图像样本施加编码后的草图、文本或声音中的一种或多种条件,所述编码指的是将草图、文本或声音量化表示为离散token序列;步骤2、从原始图像样本集中随机抽取两个样本,分别给两个样本的施加随机一种控制条件序列c,将施加控制条件序列的两个样本输入transformer网络中,利用多种掩码策略分别计算每个样本的掩码token序列,得到每个样本在不同掩码策略下对应的掩码token序列;步骤3、交换两个样本施加的随机控制条件序列,将施加控制条件序列的两个样本输入transformer网络中,利用多种掩码策略分别计算每个样本的掩码token序列,得到交换后的每个样本在不同掩码策略下对应的掩码token序列;步骤4、利用每个样本在不同掩码策略下对应的掩码token序列和交换后的每个样本在不同掩码策略下对应的掩码token序列,计算每种掩码策略下的交叉熵损失函数l1和相关性损失函数l2,进而计算得到每种掩码序列下的总损失函数l,通过梯度反向传播,更新transformer的参数,判断每种掩码序列下的总损失函数是否均达到最小值,若是,转到下一步,否则转到步骤2;步骤5、保存最后一次的transformer的参数,作为最终transformer网络;步骤6、将待处理草图、文本和声音样本中一种或多种的组合输入相应的编码器,得到待处理样本对应的离散token序列,将离散token序列输入最终transformer网络,得到待处理样本对应的预测token序列;步骤7、将预测token序列输入解码器,得到重构图像。2.根据权利要求1所述的两阶段处理多模态服装图像生成方法,其特征在于,步骤1中,对文本进行编码的方式为,通过wordpieces将所有的文本单词进行token化,即wordpiece是每次从词表中选出两个子词合并成新的子词转化成token序列t={t1,

,ti,tn},其中ti是第i个token,n是token序列的长度;对音频进行编码的方式为:首先使用卷积神经网络提取器对原始音频进行编码,从而获得音频表示,即帧特征序列,然后通过向量量化模块把每帧特征转变为离散特征,即token序列;对草图进行编码的方式为,则通过图像编码器进行编码,得到草图的量化表示,即离散码本token序列。3.根据权利要求1所述的两阶段处理多模态服装图像生成方法,其特征在于,步骤2和步骤3中的多种掩码策略包括以下五种掩码策略:(1)随机掩盖所需数量的token;(2)掩盖所有token;(3)boxed area masking,对图像的一些boxed区域内的token进行掩盖;(4)对boxed area masking的否定,保留boxed area的token,对图像其余部分的token进行屏蔽;(5)随机保留一些图像。多模态信息构成的离散联合token序列由一个特殊标记[rel]计算相关性,[mask]标记则用来根据上述的掩码策略屏蔽联合token序列中的token。4.根据权利要求1所述的两阶段处理多模态服装图像生成方法,其特征在于,所述步骤4中计算交叉熵损失函数l1的公式为:
其中,m是码本对应的掩码索引,是步骤2输入的联合token序列经过相应的掩码策略后得到的掩码token序列,是由掩码token序列得到的预测的掩码位置,c为施加的控制条件序列,为确定和c后出现的概率,由softmax分类器计算得到。5.根据权利要求1所述的两阶段处理多模态服装图像生成方法,其特征在于,所述步骤4中计算相关性损失函数l2的公式为:其中,m是码本对应的掩码索引,是输入的离散码本token序列经过相应的掩码策略后得到的掩码token序列,是由掩码token序列得到的预测的掩码位置,c为步骤2交换前施加的控制条件序列,交换后的控制条件序列,为确定和c后出现的概率,为确定和后出现的概率,和由softmax分类器计算得到。6.根据权利要求1所述的两阶段处理多模态服装图像生成方法,其特征在于,所述步骤4中总损失函数的计算公式为l=λl1+(1-λ)l2,其中λ是预设超参数。

技术总结
本发明涉及一种两阶段处理多模态服装图像生成方法,本发明的方法主要包括两个阶段:1、多模态融合阶段:首先采用单独的编码器分别对各个模态的输入进行编码得到联合的离散Token序列;2、图像生成阶段:将上一步得到的联合离散Token序列作为Transformer的输入,通过Transformer建模多模态输入与目标图像之间的相关性,从而预测出目标图像Token序列,最后通过图像解码器得到目标图像。本发明首次将文本、音频和视觉图像作为条件引入服装图像合成任务,应用范围广泛,合成效果质量高,可以有效地生成高度可控的服装图像,为计算机辅助服装设计提供了新思路。设计提供了新思路。设计提供了新思路。


技术研发人员:陈佳 杨聪聪 胡新荣 彭涛 熊明福 梁金星
受保护的技术使用者:武汉纺织大学
技术研发日:2022.06.19
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-10652.html

最新回复(0)