本申请涉及神经网络算法,尤其涉及一种搜索和编辑nerf中对象的方法和装置。
背景技术:
1、神经辐射场(neural radiance field,nerf)是一种神经网络算法,可以从部分二维图像集重建复杂的三维场景。各种模拟、游戏、媒体和物联网(iot)应用都需要三维图像,以使数字交互更加真实和准确。nerf学习特定场景的场景几何形状、对象和角度,然后从新的视角渲染逼真的3d视图,自动生成合成数据来填补空白。它作为一种具有隐式场景表示的新型视场合成技术,在计算机视觉领域引起了广泛的关注。作为一种新颖的视图合成和三维重建方法,nerf模型在机器人、城市地图、自主导航、虚拟现实/增强现实等领域都有广泛的应用。
2、但是,nerf模型都是连成一个整体的,所有的物体都是一体的,因此如果需要查找和编辑模型中的某个物体并进行编辑,是很难办到的。通常nerf并不会提供此类功能,且nerf无人工干预,计算出的结果无法编辑。
技术实现思路
1、有鉴于此,本申请提出了一种搜索和编辑nerf中对象的方法,以解决上述背景技术所体现的问题。
2、根据本申请的一方面,提供了一种搜索和编辑nerf中对象的方法,包括:
3、接收查询请求;
4、对所述查询请求的查询内容进行特征提取,得到查询特征;
5、获取基于nerf的3d场景中每个点的点特征向量;
6、计算所述查询特征和所述点特征向量之间的相似度,根据所述相似度是否超过预设相似度阈值确定所述查询内容对应的查询结果;
7、对所述查询结果进行编辑处理,并更新对应的所述点特征向量;
8、根据更新后的所述点特征向量,将所述nerf的3d场景进行渲染。
9、作为本申请的一种可选实施方案,对所述查询请求的查询内容进行特征提取,得到查询特征,包括:
10、当所述查询内容为文本查询时,使用文本编码器提取语言特征,得到语言查询特征;
11、当所述查询内容为图像查询时,使用视觉编码器提取视觉特征,得到视觉查询特征。
12、作为本申请的一种可选实施方案,所述根据所述相似度是否超过预设相似度阈值确定所述查询内容对应的查询结果,包括:
13、判断所述相似度是否超过预设相似度阈值;
14、当所述相似度超过所述预设相似度阈值时,根据所述点特征向量对应确定在所述基于nerf的3d场景中的查询结果。
15、作为本申请的一种可选实施方案,所述获取基于nerf的3d场景中每个点的点特征向量,包括:
16、获取待构建3d场景图像;
17、分别提取所述待构建3d场景图像的视觉特征和语言特征;
18、将所述视觉特征和所述语言特征进行融合处理,得到多模态特征;
19、将所述多模态特征与根据所述待构建3d场景图像对预训练nerf模型进行特征匹配训练,得到训练结果;
20、所述预训练nerf模型根据所述训练结果生成对应的3d场景。
21、作为本申请的一种可选实施方案,所述分别提取所述待构建3d场景图像的视觉特征和语言特征,包括:
22、采用视觉编码器提取所述待构建3d场景图像的视觉特征;
23、获取对所述待构建3d场景图像的描述性标签;
24、采用图像编码器计算所述待构建3d场景图像的像素嵌入,得到像素嵌入计算结果;
25、将所述描述性标签和像素嵌入计算结果进行交互,得到待构建3d场景图像的语言特征。
26、作为本申请的一种可选实施方案,所述将所述视觉特征和所述语言特征进行融合处理,得到多模态特征,包括:
27、将所述视觉特征和所述语言特征结合,并进行相似度度量计算,得到权重矩阵;
28、对所述权重矩阵进行归一化处理,并分别与所述视觉特征和所述语言特征进行加权计算,得到加权结果;
29、将所述加权结果进行求和,融合所述视觉特征和所述语言特征,得到多模态特征。
30、作为本申请的一种可选实施方案,所述将所述视觉特征和所述语言特征进行融合处理,得到多模态特征,还包括:
31、构建公共特征空间;
32、在所述公共特征空间中分别对所述视觉特征和所述语言特征应用线性变换,对应得到视觉特征线性变换结果和语言特征应用线性变化结果;
33、将所述视觉特征线性变换结果和所述语言特征应用线性变化结果进行融合,得到多模态特征。
34、作为本申请的一种可选实施方案,所述将所述多模态特征与根据所述待构建3d场景图像对预训练nerf模型进行特征匹配训练,得到训练结果,包括:
35、获取预先定义的损失函数;
36、根据所述损失函数得到所述特征匹配的目标函数;
37、所述预训练nerf模型根据所述目标函数进行特征匹配训练,得到训练结果。
38、本申请还提供了一种搜索和编辑nerf中对象的装置,包括:
39、接收查询模块,用于接收查询请求;
40、特征提取模块,用于对所述查询请求的查询内容进行特征提取,得到查询特征;
41、获取点特征向量模块,用于获取基于nerf的3d场景中每个点的点特征向量;
42、获取查询结果模块,用于计算所述查询特征和所述点特征向量之间的相似度,根据所述相似度是否超过预设相似度阈值确定所述查询内容对应的查询结果;
43、编辑模块,用于对所述查询结果进行编辑处理,并更新对应的所述点特征向量;
44、渲染模块,用于根据更新后的所述点特征向量,将所述nerf的3d场景进行渲染。
45、本申请还提供了一种电子设备,包括:
46、处理器;
47、用于存储处理器可执行指令的存储器;
48、其中,所述处理器被配置为执行所述可执行指令时实现上述所述的搜索和编辑nerf中对象的方法。
49、本申请的有益效果:
50、本发明通过对所述查询请求的查询内容进行特征提取,得到查询特征,获取基于nerf的3d场景中每个点的点特征向量,计算所述查询特征和所述点特征向量之间的相似度,根据所述相似度是否超过预设相似度阈值确定所述查询内容对应的查询结果。能够对视觉特征和语言特征进行融合,得到多模态特征,并且准确反映到3d场景中,并且可以通过文本或图像查询相关特征,进一步确定识别对象,实现对物体等的编辑目的。
51、根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
1.一种搜索和编辑nerf中对象的方法,其特征在于,包括:
2.根据权利要求1所述的搜索和编辑nerf中对象的方法,其特征在于,对所述查询请求的查询内容进行特征提取,得到查询特征,包括:
3.根据权利要求2所述的搜索和编辑nerf中对象的方法,其特征在于,所述根据所述相似度是否超过预设相似度阈值确定所述查询内容对应的查询结果,包括:
4.根据权利要求1所述的搜索和编辑nerf中对象的方法,其特征在于,所述获取基于nerf的3d场景中每个点的点特征向量,包括:
5.根据权利要求4所述的搜索和编辑nerf中对象的方法,其特征在于,所述分别提取所述待构建3d场景图像的视觉特征和语言特征,包括:
6.根据权利要求4所述的搜索和编辑nerf中对象的方法,其特征在于,所述将所述视觉特征和所述语言特征进行融合处理,得到多模态特征,包括:
7.根据权利要求4所述的搜索和编辑nerf中对象的方法,其特征在于,所述将所述视觉特征和所述语言特征进行融合处理,得到多模态特征,还包括:
8.根据权利要求5所述的搜索和编辑nerf中对象的方法,其特征在于,所述将所述多模态特征与根据所述待构建3d场景图像对预训练nerf模型进行特征匹配训练,得到训练结果,包括:
9.一种搜索和编辑nerf中对象的装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:
