本公开涉及计算机,尤其涉及一种三维模型方法、装置、电子设备及存储介质。
背景技术:
1、随着人工智能技术的发展,出现了“文生3d”技术,即从给定文本生成符合该文本描述的三维(3d)模型技术,该技术极大简化了传统上需要专业知识和繁重劳动的3d模型创建过程,使得批量生成3d内容成为可能。
2、然而,相关技术中基于文本描述生成三维模型的方式,不仅生成三维模型的效率低,而且所生成的三维模型的质量也较差。
技术实现思路
1、本公开提供一种三维模型生成方法、装置、电子设备及存储介质,以至少解决相关技术中基于文本生成三维模型的效率低和质量差的问题。本公开的技术方案如下:
2、根据本公开实施例的第一方面,提供一种三维模型生成方法,包括:
3、获取文本提示和所述文本提示对应的参考图像;
4、基于所述参考图像和多个预设视角的视角信息的引导进行多视角图像生成处理,在所述多视角图像生成处理过程中,提取每个所述预设视角的目标隐特征图,基于各所述预设视角的目标隐特征图生成体密度场和各所述预设视角的视角增强特征图,基于各所述预设视角的视角增强特征图生成各所述预设视角的视角图像;
5、基于所述文本提示和各所述预设视角的视角图像,对预训练图像去噪模型进行模型微调,得到目标图像去噪模型;
6、基于所述体密度场生成初始化三维模型;
7、对所述初始化三维模型的渲染图像添加噪声得到加噪渲染图像,将所述文本提示和所述加噪渲染图像输入至所述目标图像去噪模型进行噪声预测,基于所述噪声预测的结果调整所述初始化三维模型的模型参数直至满足结束条件,得到目标三维模型。
8、在一些示例性的实施方式中,所述基于各所述预设视角的目标隐特征图生成体密度场和各所述预设视角的视角增强特征图,包括:
9、将各所述预设视角的目标隐特征图作为三维空间的特征平面,构建所述三维空间;
10、将所述三维空间中的各空间点分别投影到各所述目标隐特征图上,基于每个所述空间点在各所述目标隐特征图上对应的投影结果,确定每个所述空间点的三维特征;
11、对每个所述空间点的三维特征进行视角增强处理,得到每个所述空间点的多视角三维特征;
12、基于每个所述空间点的多视角三维特征进行神经辐射场预测,得到体密度场和颜色特征信息;
13、基于所述体密度场和颜色特征信息分别在各所述预设视角下进行体积渲染,得到各所述预设视角的视角增强特征图。
14、在一些示例性的实施方式中,所述对每个所述空间点的三维特征进行视角增强处理,得到每个所述空间点的多视角三维特征包括:
15、在每个所述空间点的三维特征中分别拼接预设标记,得到每个所述空间点的标记三维特征;
16、对每个所述空间点的标记三维特征分别进行自注意力处理,得到每个所述空间点的多视三维特征。
17、在一些示例性的实施方式中,所述基于每个所述空间点的多视角三维特征进行神经辐射场预测,得到体密度场和颜色特征信息,包括:
18、对于每个所述空间点的多视角三维特征,从所述多视角三维特征中提取所述预设标记对应位置的特征,得到所述空间点的多视角全局特征;将提取所述多视角全局特征后的所述多视角三维特征作为所述空间点的视角增强特征;
19、基于每个所述空间点的多视角全局特征进行体密度预测,得到每个所述空间点的预测体密度;所述体密度场包括各所述空间点的预测体密度;
20、基于每个所述空间点的视角增强特征,得到所述颜色特征信息。
21、在一些示例性的实施方式中,所述基于每个所述空间点在各所述目标隐特征图上对应的投影结果,确定每个所述空间点的三维特征,包括:
22、对于每个所述空间点,基于所述空间点在各所述目标隐特征图上对应的投影结果和线性插值,得到所述空间点对应各所述特征平面的特征向量;
23、将所述空间点对应各所述特征平面的特征向量与相应特征平面对应的视角嵌入向量进行叠加,得到所述空间点的三维特征;各所述特征平面对应的视角嵌入向量基于所述特征平面所对应预设视角的视角信息得到。
24、在一些示例性的实施方式中,所述将所述文本提示和所述加噪渲染图像输入至所述目标图像去噪模型进行噪声预测,基于所述噪声预测的结果调整所述初始化三维模型的模型参数直至满足结束条件,得到目标三维模型包括:
25、将所述文本提示和所述加噪渲染图像输入至所述目标图像去噪模型,分别对所述加噪渲染图像进行第一去噪处理和第二去噪处理,获取所述第一去噪处理过程中的第一预测噪声和所述第二去噪处理过程中的第二预测噪声;所述第一去噪处理在所述文本提示的引导下进行,所述第二去噪处理无文本提示的引导;
26、基于所述第一预测噪声与所述第二预测噪声之间的差值,确定第一损失项;基于所述第二预测噪声,确定第二损失项;
27、基于所述第一损失项和所述第二损失项,调整所述初始化三维模型的模型参数,并基于调整后的模型参数进行迭代直至满足预设结束条件,得到目标三维模型。
28、在一些示例性的实施方式中,所述基于所述第一损失项和所述第二损失项,调整所述初始化三维模型的模型参数,并基于调整后的模型参数进行迭代直至满足预设结束条件,得到目标三维模型包括:
29、基于所述第二损失项与所述第一损失项之间的差值,确定比例超参数;所述比例超参数为小于1的正数;
30、基于所述比例超参数对所述第一损失项和所述第二损失项进行线性融合,得到融合损失;
31、基于所述融合损失调整所述初始化三维模型的模型参数,并基于调整后的模型参数进行迭代直至满足预设结束条件,得到目标三维模型。
32、在一些示例性的实施方式中,所述基于各所述预设视角的视角增强特征图生成各所述预设视角对应的视角图像,包括:
33、对于每个所述预设视角,将所述预设视角的目标隐特征图与视角增强特征图进行叠加,得到所述预设视角的待解码特征图;
34、对各所述预设视角的待解码特征图进行解码处理,得到各所述预设视角对应的视角图像。
35、根据本公开实施例的第二方面,提供一种三维模型生成装置,包括:
36、第一获取单元,被配置为执行获取文本提示和所述文本提示对应的参考图像;
37、多视角图像生成单元,被配置为执行基于所述参考图像和多个预设视角的视角信息的引导进行多视角图像生成处理,在所述多视角图像生成处理过程中,提取每个所述预设视角的目标隐特征图,基于各所述预设视角的目标隐特征图生成体密度场和各所述预设视角的视角增强特征图,基于各所述预设视角的视角增强特征图生成各所述预设视角的视角图像;
38、预训练模型微调单元,被配置为执行基于所述文本提示和各所述预设视角的视角图像,对预训练图像去噪模型进行模型微调,得到目标图像去噪模型;
39、三维模型初始化单元,被配置为执行基于所述体密度场生成初始化三维模型;
40、三维模型生成单元,被配置为执行对所述初始化三维模型的渲染图像添加噪声得到加噪渲染图像,将所述文本提示和所述加噪渲染图像输入至所述目标图像去噪模型进行噪声预测,基于所述噪声预测的结果调整所述初始化三维模型的模型参数直至满足结束条件,得到目标三维模型。
41、在一些示例性的实施方式中,所述多视角图像生成单元,包括:
42、三维空间构建单元,被配置为执行将各所述预设视角的目标隐特征图作为三维空间的特征平面,构建所述三维空间;
43、空间点表示单元,被配置为执行将所述三维空间中的各空间点分别投影到各所述目标隐特征图上,基于每个所述空间点在各所述目标隐特征图上对应的投影结果,确定每个所述空间点的三维特征;
44、空间点表示增强单元,被配置为执行对每个所述空间点的三维特征进行视角增强处理,得到每个所述空间点的多视角三维特征;
45、神经辐射场预测单元,被配置为执行基于每个所述空间点的多视角三维特征进行神经辐射场预测,得到体密度场和颜色特征信息;
46、体积渲染单元,被配置为执行基于所述体密度场和颜色特征信息分别在各所述预设视角下进行体积渲染,得到各所述预设视角的视角增强特征图。
47、在一些示例性的实施方式中,所述空间点表示增强单元包括:
48、标记单元,被配置为执行在每个所述空间点的三维特征中分别拼接预设标记,得到每个所述空间点的标记三维特征;
49、注意力处理单元,被配置为执行对每个所述空间点的标记三维特征分别进行自注意力处理,得到每个所述空间点的多视三维特征。
50、在一些示例性的实施方式中,所述神经辐射场预测单元包括:
51、多视角全局特征提取单元,被配置为执行对于每个所述空间点的多视角三维特征,从所述多视角三维特征中提取所述预设标记对应位置的特征,得到所述空间点的多视角全局特征;将提取所述多视角全局特征后的所述多视角三维特征作为所述空间点的视角增强特征;
52、体密度预测单元,被配置为执行基于每个所述空间点的多视角全局特征进行体密度预测,得到每个所述空间点的预测体密度;所述体密度场包括各所述空间点的预测体密度;
53、颜色特征信息确定单元,被配置为执行基于每个所述空间点的视角增强特征,得到所述颜色特征信息。
54、在一些示例性的实施方式中,所述空间点表示单元包括:
55、投影插值单元,被配置为执行对于每个所述空间点,基于所述空间点在各所述目标隐特征图上对应的投影结果和线性插值,得到所述空间点对应各所述特征平面的特征向量;
56、向量叠加单元,被配置为执行将所述空间点对应各所述特征平面的特征向量与相应特征平面对应的视角嵌入向量进行叠加,得到所述空间点的三维特征;各所述特征平面对应的视角嵌入向量基于所述特征平面所对应预设视角的视角信息得到。
57、在一些示例性的实施方式中,所述三维模型生成单元包括:
58、噪声预测单元,被配置为执行将所述文本提示和所述加噪渲染图像输入至所述目标图像去噪模型,分别对所述加噪渲染图像进行第一去噪处理和第二去噪处理,获取所述第一去噪处理过程中的第一预测噪声和所述第二去噪处理过程中的第二预测噪声;所述第一去噪处理在所述文本提示的引导下进行,所述第二去噪处理无文本提示的引导;
59、多损失项确定单元,被配置为执行基于所述第一预测噪声与所述第二预测噪声之间的差值,确定第一损失项;基于所述第二预测噪声,确定第二损失项;
60、三维模型参数调整单元,被配置为执行基于所述第一损失项和所述第二损失项,调整所述初始化三维模型的模型参数,并基于调整后的模型参数进行迭代直至满足预设结束条件,得到目标三维模型。
61、在一些示例性的实施方式中,所述三维模型参数调整单元,具体被配置为执行:基于所述第二损失项与所述第一损失项之间的差值,确定比例超参数;所述比例超参数为小于1的正数;基于所述比例超参数对所述第一损失项和所述第二损失项进行线性融合,得到融合损失;基于所述融合损失调整所述初始化三维模型的模型参数,并基于调整后的模型参数进行迭代直至满足预设结束条件,得到目标三维模型。
62、在一些示例性的实施方式中,所述多视角图像生成单元在基于各所述预设视角的视角增强特征图生成各所述预设视角对应的视角图像时,具体用于:对于每个所述预设视角,将所述预设视角的目标隐特征图与视角增强特征图进行叠加,得到所述预设视角的待解码特征图;对各所述预设视角的待解码特征图进行解码处理,得到各所述预设视角对应的视角图像。
63、根据本公开实施例的第三方面,提供一种电子设备,包括:
64、处理器;
65、用于存储所述处理器可执行指令的存储器;
66、其中,所述处理器被配置为执行所述指令,以实现上述第一方面的三维模型生成方法。
67、根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面的三维模型生成方法。
68、根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述第一方面的三维模型生成方法。
69、本公开实施例通过获取文本提示和该文本提示对应的参考图像,基于该参考图像和多个预设视角的视角信息的引导进行多视角图像生成处理,在该多视角图像生成处理过程中,提取每个预设视角的目标隐特征图,基于各预设视角的目标隐特征图生成体密度场和各预设视角的增强特征图,基于各预设视角的增强特征图生成各预设视角对应的视角图像,进而基于文本提示和各预设视角的视角图像对预训练图像去噪模型进行模型微调,得到目标图像去噪模型,以及基于生成的体密度场生成初始化三维模型,并对该初始化三维模型的渲染图像添加噪声得到加噪渲染图像,将文本提示和该加噪渲染图像输入至前述目标图像去噪模型进行噪声预测,基于噪声预测的结果调整初始化三维模型的模型参数直至满足结束条件以得到目标三维模型,从而统一了初始化三维模型和目标图像去噪模型的生成方向,实现更好的协同合作,提高了三维模型的收敛速度和质量,目标三维模型与文本提示的匹配性更好。
70、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
1.一种三维模型生成方法,其特征在于,包括:
2.根据权利要求1所述的三维模型生成方法,其特征在于,所述基于各所述预设视角的目标隐特征图生成体密度场和各所述预设视角的视角增强特征图,包括:
3.根据权利要求2所述的三维模型生成方法,其特征在于,所述对每个所述空间点的三维特征进行视角增强处理,得到每个所述空间点的多视角三维特征包括:
4.根据权利要求3所述的三维模型生成方法,其特征在于,所述基于每个所述空间点的多视角三维特征进行神经辐射场预测,得到体密度场和颜色特征信息,包括:
5.根据权利要求2-4中任一项所述的三维模型生成方法,其特征在于,所述基于每个所述空间点在各所述目标隐特征图上对应的投影结果,确定每个所述空间点的三维特征,包括:
6.根据权利要求1所述的三维模型生成方法,其特征在于,所述将所述文本提示和所述加噪渲染图像输入至所述目标图像去噪模型进行噪声预测,基于所述噪声预测的结果调整所述初始化三维模型的模型参数直至满足结束条件,得到目标三维模型包括:
7.根据权利要求6所述的三维模型生成方法,其特征在于,所述基于所述第一损失项和所述第二损失项,调整所述初始化三维模型的模型参数,并基于调整后的模型参数进行迭代直至满足预设结束条件,得到目标三维模型包括:
8.根据权利要求1所述的三维模型生成方法,其特征在于,所述基于各所述预设视角的视角增强特征图生成各所述预设视角对应的视角图像,包括:
9.一种三维模型生成装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:
11.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至8中任一项所述的三维模型生成方法。
