基于空间混合注意力的神经辐射场三维重建方法

专利2025-04-25  14


本发明属于计算机视觉领域,具体涉及一种基于空间混合注意力的神经辐射场三维重建方法。


背景技术:

1、三维场景重建作为计算机视觉和图形学领域的重要问题,旨在从一系列二维图像中还原出三维场景的几何和外观信息。这一问题在虚拟现实、增强现实和三维打印等领域有广泛应用。然而,由于二维图像仅包含有限的视角和光照信息,而三维场景则具有无限的复杂性和多样性,因此三维场景重建一直以来都是一项极具挑战性的任务。

2、近年来,深度学习方法在三维场景重建领域取得了令人瞩目的进展。其中,神经辐射场作为一种新颖而有效的方法,能够从二维图像中恢复出三维几何和外观信息,但其仍然面临一些限制。其中之一是模型经常在生成场景体块时出现误差,导致出现并不存在于实际场景中的体。这种误差表现为场景中出现类似云雾效果的伪影,给重建结果带来了一定的不真实感。此外,神经辐射场模型在处理物体边界时存在挑战,导致边界呈现出明显的模糊效果,进而影响了整体重建的精确性和真实感。为了解决以上的问题,本发明提出了基于空间混合注意力的方法,通过空间向量混合与线性门控结构,增强和融合场景中颜色与密度之间的关联性,以更好地捕捉其特征,优化场景中的体密度与颜色信息。使之能够在仅增加少量网络参数的情况下,显著提高场景的重建质量与定量指标。


技术实现思路

1、本发明的目的在于提供一种基于空间混合注意力的神经辐射场三维重建方法,能够在仅增加少量网络参数的情况下,有显著提高场景的重建质量与定量指标。

2、为实现上述目的,本发明的技术方案是:一种基于空间混合注意力的神经辐射场三维重建方法,包括以下步骤:

3、步骤s1、通过手持相机拍摄真实场景的各个视角的视图,并将视图集合通过算法计算相机的空间位置与方向,整理成数据集后进行预处理;

4、步骤s2、输入每个视图与相机位姿,并在场景中进行采样,接着通过空间混合多层感知机,得到场景中每个采样点所对应的基本颜色与密度信息;

5、步骤s3、将得到的采样点信息输入具有线性注意力机制的门控结构,通过对颜色向量与密度向量进行注意力融合,得到空间中每个采样点颜色与密度之间的相关性,并与原颜色向量与密度向量相结合得到包含颜色与密度相关性的采样点信息特征向量;

6、步骤s4、通过空间中每个采样点的密度信息确定场景中存在物体的区域并进行三维场景建模,接着通过采样点的颜色信息对生成的三维体进行体渲染,最终重建出完整的三维场景。

7、在本发明一实施例中,所述步骤s1具体为:

8、步骤s11、使用手持相机在真实场景中拍摄各个视角的图像,确保覆盖不同的角度和视野;

9、步骤s12、根据相机的运动轨迹和拍摄时的姿态信息,计算出相机的空间位置和方向;

10、步骤s13、对计算得到的相机的空间位置和方向进行整理和预处理,去除异常值和错误数据,将相机坐标系转换为世界坐标系。

11、在本发明一实施例中,所述步骤s2具体为:

12、步骤s21、将每个视图与对应的相机位姿信息输入到神经辐射场中,包括相机在世界坐标系中的位置坐标position与视角方向direction;

13、步骤s22、在场景中进行随机采样,在随机方向上取光线ray,并在光线ray上取采样点sample,并输出所有采样点的位置信息;

14、步骤s23、将position与direction输入空间混合多层感知机mlp中,输出每个采样点所在空间位置所对应的颜色rgb和密度density。

15、在本发明一实施例中,所述空间混合多层感知机mlp结构具体为:

16、将描述采样点的颜色rgb与密度density信息的1×4维特征向量featuresample作为空间混合多层感知机的输入,其中每一维分别代表rgb中的r,g,b与密度density,featuresample经过线性投影扩展成n×4维扩展向量featureexpand_sample,并将featureexpand_sample转置得到n维混合特征featuremix_sample,据此得到n个具有颜色rgb与密度density信息的向量;将featuremix_sample通过一层线性层投影,并进行转置,得到最终的采样点属性特征featureraw_sample;具体操作表示为:

17、featuremix_sample=transpose(wn*1*featuresample+b1)

18、featureraw_sample=transpose(w1*4*featuremix_sample+b2)

19、其中wn*1表示一个n×1维矩阵,w1*4表示一个1×4维矩阵,b1与b2分别表示相应投影的偏置值,transpose表示矩阵转置操作。

20、在本发明一实施例中,所述步骤s3具体为:

21、步骤s31、将每个采样点sample的颜色rgb和密度density信息即featureraw_sample输入到

22、具有线性注意力机制的门控结构中;

23、步骤s32、将特征向量featureraw_sample拆分成代表颜色与密度的两个向量,并将这两个向量分别通过线性投影,接着融合得到featuremid_sample;

24、步骤s33、对于featuremid_sample,将其投影到与featureraw_sample相同维度并进行残差连接,得到最终包含颜色与密度相关性的采样点信息特征向量featureoutput_sample。

25、在本发明一实施例中,步骤s32中,首先将输入1×4的featureraw_sample的前三维与最后一维拆分并转置得到代表rgb与density的向量featurergb_sample与featuredensity_sample;将featurergb_sample与featuredensity_sample分别通过线性投影与激活,得到形状相同的两个向量featureexpand_rgb与featureexpand_density;接着将featureexpand_rgb与featureexpand_density经过一个点乘操作,得到一个包含颜色与密度关联性的向量featuremid_sample;最后通过一个残差连接与线性投影层并转置;步骤s33中,将featureraw_sample与得到的featuremid_sample进行连接,得到最终的采样点信息特征向量featureoutput_sample;具体操作表示为:

26、featurergb_sample,featuredensity_sample=split(transpose(featureraw_sample))

27、featureexpand_rgb=act(wm*3*featurergb_sample+b3)

28、featureexpand_density=act(wm*1*featuredensity_sample+b4)

29、featuremid_sample=w4*m*(featureexpand_rgb⊙featureexpand_density)+b5

30、featureoutput_sample=transpose(featuremid_sample)+featureraw_sample

31、其中split表示分割操作,act表示激活函数,此处使用relu激活函数,wm*3表示一个m×3维矩阵,wm*1表示一个m×1维矩阵,w4*m表示一个4×m维矩阵,b3、b4、b5分别表示相应投影的偏置值,transpose表示矩阵转置操作。

32、在本发明一实施例中,所述步骤s4具体为:

33、步骤s41、通过从步骤s3得到的包含颜色与密度相关性的采样点信息特征向量featureoutput_sample中取出采样点所对应的密度信息,确定场景中存在物体的区域,生成场景的三维体模型volume;

34、步骤s42、从featureoutput_sample中取出采样点所对应的颜色信息,通过体渲染将三维模型表面的颜色信息映射到volume上;

35、步骤s43、给定视角,输出体渲染后的三维模型在相应视角下的视图,并与输入的监督图像作mse损失,经过反向传播、梯度下降算法,优化整个过程中采样点颜色与密度的值,并最终渲染出完整的三维模型。

36、在本发明一实施例中,所述体渲染具体方法为:

37、给定相机位置坐标position与视角方向direction,通过输入的采样点颜色rgb,得到相应位置视角下物体表面的颜色color,具体方法如下:

38、

39、式中rgbi为沿方向第i个采样点的颜色,weighti为沿方向第i个采样点颜色的权重,densityi表示沿方向第i个采样点的密度,densityj表示沿方向第j个采样点的密度,distancei表示第i+1与第i个采样点间的距离,distancej表示第j+1与第j个采样点间的距离,s表示采样点的上限,此处为65536,最后,在待合成场景中的volume表面上,通过跟踪相机光线,渲染出完整的三维模型。

40、本发明还提供了一种基于空间混合注意力的神经辐射场三维重建系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。

41、本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。

42、相较于现有技术,本发明具有以下有益效果:

43、1、对比已有的神经辐射场方法,本发明在尽可能保持推理速度的情况下,重新构建了神经辐射场的多层感知机结构,提高了方法的重建精度,使得其更适用于真实场景;

44、2、本发明创新使用基于线性注意力的门控结构,不同于传统的神经辐射场方法,本发明创新地增强和融合了场景中颜色与不透明度之间的关联性,使得多层感知机更集中准确地学习场景中存在的物体,并对其体密度与颜色进行优化;

45、3、本发明受transformer模型启发,重新设计了适合于线性网络的注意力机制,并将其与空间混合多层感知机相结合,可以在不显著增加参数量的情况下提升了神经辐射场模型的三维重建性能。


技术特征:

1.一种基于空间混合注意力的神经辐射场三维重建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于空间混合注意力的神经辐射场三维重建方法,其特征在于,所述步骤s1具体为:

3.根据权利要求1所述的基于空间混合注意力的神经辐射场三维重建方法,其特征在于,所述步骤s2具体为:

4.根据权利要求3所述的基于空间混合注意力的神经辐射场三维重建方法,其特征在于,所述空间混合多层感知机mlp结构具体为:

5.根据权利要求4所述的基于空间混合注意力的神经辐射场三维重建方法,其特征在于,所述步骤s3具体为:

6.根据权利要求5所述的基于空间混合注意力的神经辐射场三维重建方法,其特征在于,步骤s32中,首先将输入1×4的featureraw_sample的前三维与最后一维拆分并转置得到代表rgb与density的向量featurergb_sample与featuredensity_sample;将featurergb_sample与featuredensity_sample分别通过线性投影与激活,得到形状相同的两个向量featureexpand_rgb与featureexpand_density;接着将featureexpand_rgb与featureexpand_density经过一个点乘操作,得到一个包含颜色与密度关联性的向量featuremid_sample;最后通过一个残差连接与线性投影层并转置;步骤s33中,将featureraw_sample与得到的featuremid_sample进行连接,得到最终的采样点信息特征向量featureoutput_sample;具体操作表示为:

7.根据权利要求1所述的基于空间混合注意力的神经辐射场三维重建方法,其特征在于,所述步骤s4具体为:

8.根据权利要求7所述的基于空间混合注意力的神经辐射场三维重建方法,其特征在于,所述体渲染具体方法为:

9.一种基于空间混合注意力的神经辐射场三维重建系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8任一所述的方法步骤。

10.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8任一所述的方法步骤。


技术总结
本发明涉及一种基于空间混合注意力的神经辐射场三维重建方法,属于计算机视觉领域。包括:拍摄真实场景的各个视角的视图,并通过算法计算相机的空间位置与方向,整理成数据集后进行预处理;在场景中进行采样,通过空间混合多层感知机,得到场景中每个采样点所对应的基本颜色与密度信息;将得到的采样点信息输入具有线性注意力机制的门控结构,对颜色向量与密度向量进行注意力融合,得到空间中每个采样点颜色与密度间的相关性,并与原向量相结合得到包含颜色与密度相关性的采样点信息特征向量;通过空间中每个采样点的密度信息确定场景中存在物体的区域并进行三维场景建模,通过采样点的颜色信息对生成的三维体进行体渲染,重建出完整的三维场景。

技术研发人员:郭文忠,江澳鑫,柯逍
受保护的技术使用者:福州大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-13502.html

最新回复(0)