1.本技术涉及三维重建技术领域,提供一种人手重建方法及设备。
背景技术:2.在人体三维重建中,备受关注的部位主要是人脸和人手,人脸用来传递表情,人手用来传递动作,尤其在有交互的实时三维重建场景中,人手的重建效果直接影响了整体的重建质量。
3.例如,在人机交互的虚拟游戏场景中,通过手势识别技术捕捉人手的运动参数,通过运动参数驱动人手三维模型运动实现与虚拟物体的交互,如果人手三维模型重建质量较差,可能导致人手无法准确的向虚拟物体触发指令,降低交互体验。
4.随着计算机视觉的发展,基于图像的人手重建称为研究热点。而人手又是人体最为灵活的器官,其具有动作速度快、姿态分布范围大、自遮挡严重等特征,导致从图像中难以准确的获取到人手准确形状和姿态,增加了计算机视觉领域人手重建的难度。
5.因此,通过视觉图像快速、准确的重建高质量的人手三维模型是亟待解决的问题。
技术实现要素:6.本技术提供一种人手重建方法及设备,用于提高人手重建的质量。
7.一方面,本技术提供一种人手重建方法,包括:
8.获取至少一个视角的人手rgb图像;
9.通过训练好的人手重建网络中的编码器,从所述人手rgb图像中提取出不同尺度的特征图以及人手特征向量;
10.当所述人手rgb图像的数量为一张时,通过所述人手重建网络中的解码器,对所述人手rgb图像中提取的人手特征向量进行若干次图卷积操作,得到目标人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;
11.根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型;
12.根据至少一张人手rgb图像对所述人手几何模型进行可微渲染,得到纹理贴图后的人手三维模型。
13.可选的,当所述人手rgb图像的数量为多张时:
14.针对每一张所述人手rgb图像中提取的人手特征向量,通过所述人手重建网络中的解码器进行若干次图卷积操作,得到初始人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;
15.根据多个视角下采集所述人手rgb图像的rgb相机的参数,将多张所述人手rgb图像对应的初始人手几何顶点集合进行融合,得到目标人手几何顶点信息。
16.可选的,多个视角rgb相机的参数是通过以下方式确定的:
17.根据每张所述人手rgb图像提取出的人手特征向量,通过所述解码器的至少一个全连接层和激活函数,计算相应rgb相机的参数;或者
18.根据多个视角的rgb相机采集的标定物图像,预先标定出所述每个视角上rgb相机的参数;
19.其中,每个rgb相机的参数包括人手相对于所述rgb相机的旋转矩阵和平移向量,用于对多个所述初始人手几何顶点集合进行融合时,将多个所述初始人手几何顶点集合中的几何顶点统一到一个坐标系下。
20.可选的,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合时,所述人手特征向量融合的所述人手信息对应的特征图的尺度,随着图卷积操作次数的增加而增大。
21.可选的,所述根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型,包括:
22.将所述目标人手几何顶点集合中几何顶点进行反向图卷积操作和全连接操作,获得人手骨架节点的三维坐标;
23.根据预先设定的蒙皮参数,驱动所述人手骨架节点的三维坐标变化,得到驱动后的人手几何模型。
24.可选的,每次图卷积操作后进行上采样操作以增加图卷积操作后获得的几何顶点的数量。
25.另一方面,本技术提供一种重建设备,包括处理器、存储器、显示屏和通信接口,所述通信接口、所述显示屏、所述存储器和所述处理器通过总线连接;
26.所述存储器包括数据存储单元和程序存储单元,所述程序存储单元存储有计算机程序,所述处理器根据所述计算机程序,执行以下操作:
27.通过所述通信接口,获取至少一个视角的rgb相机采集的人手rgb图像,并存储至所述数据存储单元;
28.通过训练好的人手重建网络中的编码器,从所述人手rgb图像中提取出不同尺度的特征图以及人手特征向量;
29.当所述人手rgb图像的数量为一张时,通过所述人手重建网络中的解码器,对所述人手rgb图像中提取的人手特征向量进行若干次图卷积操作,得到目标人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;
30.根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型;
31.根据至少一张人手rgb图像对所述人手几何模型进行可微渲染,得到纹理贴图后的人手三维模型,并通过所述显示屏进行显示。
32.可选的,当所述人手rgb图像的数量为多张时,所述处理器还执行:
33.针对每一张所述人手rgb图像中提取的人手特征向量,通过所述人手重建网络中的解码器进行若干次图卷积操作,得到初始人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;
34.根据多个视角下采集所述人手rgb图像的rgb相机的参数,将多张所述人手rgb图
像对应的初始人手几何顶点集合进行融合,得到目标人手几何顶点信息。
35.可选的,所述处理器通过以下方式确定每个视角的rgb相机的参数:
36.根据每张所述人手rgb图像提取出的人手特征向量,通过所述解码器的至少一个全连接层和激活函数,计算相应rgb相机的参数;或者
37.根据多个视角的rgb相机采集的标定物图像,预先标定出所述每个视角上rgb相机的参数;
38.其中,每个rgb相机的参数包括人手相对于所述rgb相机的旋转矩阵和平移向量,用于对多个所述初始人手几何顶点集合进行融合时,将多个所述初始人手几何顶点集合中的几何顶点统一到一个坐标系下。
39.可选的,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合时,所述人手特征向量融合的所述人手信息对应的特征图的尺度,随着图卷积操作次数的增加而增大。
40.可选的,所述处理器根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型,具体操作为:
41.将所述目标人手几何顶点集合中几何顶点进行反向图卷积操作和全连接操作,获得人手骨架节点的三维坐标;
42.根据预先设定的蒙皮参数,驱动所述人手骨架节点的三维坐标变化,得到驱动后的人手几何模型。
43.可选的,所述处理器在每次图卷积操作后进行上采样操作以增加图卷积操作后获得的几何顶点的数量。
44.另一方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机设备执行本技术实施例提供的人手重建方法。
45.本技术提供的一种人手重建方法及设备中,训练好的人手重建网络包括编码器和解码器,编码器用于从每个视角的人手rgb图像中提取不同尺度的特征图和人手特征向量,解码器用于对提取的人手特征向量进行若干次图卷积操作,得到几何顶点数量丰富的目标人手几何顶点集合以提高人手模型的精度;并且,在若干次图卷积操作中,将人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与人手rgb图像对应的人手特征向量进行融合,由于不同尺度的特征图是对不同分辨率的人手rgb图像进行编码得到的,因此,从不同尺度特征图中提取的人手信息的丰富度不同,通过将不同尺度特征图中提取的人手信息融合到人手特征向量中,使得目标人手几何顶点集合包含更多的全局信息和细节信息,从而得到与真实人手一致的人手几何模型,进而对人手几何模型进行可微渲染时,提高了人手三维模型的真实性。
附图说明
46.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1为本技术实施例提供的基于单视角的人手rgb图像进行人手重建的方法流程图;
48.图2为本技术实施例提供的图卷积后几何顶点和特征图中提取的人手信息融合示意图;
49.图3为本技术实施例提供的单张人手rgb图像的图卷积和上采样过程示意图;
50.图4为本技术实施例提供的生成人手几何模型的方法流程图;
51.图5为本技术实施例提供的目标人手几何顶点集合中不同数量的几何顶点与模型精细程度的关系图;
52.图6为本技术实施例提供的基于单视角的人手重建网络的结构图;
53.图7为本技术实施例提供的基于多视角的人手rgb图像进行人手重建的方法流程图;
54.图8为本技术实施例提供的多张人手rgb图像的特征图和人手特征向量的提取过程示意图;
55.图9为本技术实施例提供多个人手初始几何顶点集合融合过程示意图;
56.图10为本技术实施例提供的基于多视角的人手重建网络的结构图;
57.图11为本技术实施例提供的重建设备的硬件结构图;
58.图12为本技术实施例提供的重建设备的功能结构图。
具体实施方式
59.下面对本技术实施例的名词给出解释说明。
60.图卷积(graph convolutional networks,gcn):人手网格(mesh)由多个几何顶点组成三角形表面模型,几何顶点和几何顶点间相互连接,构成一张图。图卷积就是在相邻顶点间传递信息的过程,经过图卷积操作后,每个几何顶点都有了其相邻顶点的信息。
61.可微渲染:是一项较为新型的研究技术,通常和深度学习框架相结合使用。相比传统的渲染技术,可微渲染能够使整个渲染过程可微分,从而可使梯度能反向传递,从而不断更新深度学习网络参数,有助于构建端到端的网络模型;同时,对于给定视角的输入图像,通过对立体三维几何进行可微渲染得到的二维语义信息,与该视角对应的输入图像可构成一个自循环监督网络,无需额外昂贵的监督。目前,开源的可微渲染库(比如pytorch3d,opendr等)已经提供了三维几何的可微渲染的接口,使用方便。
62.下面对本技术实施例的设计思想进行概述。
63.人手重建是计算机图形学领域中一个重要且基础的问题,在虚拟/增强现实、人机交互和人工智能领域内有着广泛的应用。例如,在虚拟现实领域中,通过重建人手的几何和运动,实现人手与虚拟物体之间的交互,增强人在虚拟环境中的真实感;在人机交互领域,近年来兴起的手势识别技术通过跟踪手的运动,将手特定的运动映射到指令集,可以代替传统的键盘和鼠标进行指令的下达,实现便携,智能的人机交互;在人工智能领域,通过实时采集和重建手的运动,并结合机器学习的方法可以实现手语的自动翻译。正是由于人手重建技术具有非常广泛的应用前景,因此具有极高的科研和应用价值。
64.由于人手重建具有广泛的应用场景,摆脱笨重和高费用的惯导、反光跟踪等硬件设备,利用普通的rgb相机采集的图像方便快捷的重建人手和估计人手姿态成为研究热点。
65.目前,人手重建的方法主要为基于模板的参数化估计方法该方法依赖于mano模板,该模板是对大量的真实人手扫描数据进行统计学分析给出的人手形状和姿态的可微参数化模型。在人手重建时,通过输入一个姿态向量和形状向量即可得到完整的人手表面模型和内嵌的骨架关节点的三维坐标,其中,人手的姿态向量和形状向量可以是采用深度学习方法从人手图像估计出的。然而,人手作为人体最灵活的部位之一,具有复杂性和多样性,且手指间可能存在遮挡,因此,为了准确的获取人手的姿态向量和形状向量,一般需要从人手张开姿态开始进行时序跟踪,对于其他姿态的手势,估计的参数较差,可能无法重建真实的人手模型。
66.鉴于此,本技术实施例提供一种人手重建方法及设备,可基于单视角或多视角的人手rgb图像,利用神经网络搭建的人手重建网络,重建出高精度、较真实的人手三维模型。该人手重建网络包含编码器和解码器,编码器用于从每个视角的人手rgb图像中提取不同尺度的特征图和人手特征向量,解码器用于对提取的人手特征向量进行若干次图卷积操作,且在若干次图卷积操作中,将人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与人手rgb图像对应的人手特征向量进行融合,使得目标人手几何顶点集合包含更多的全局信息和细节信息,从而得到与真实人手一致的高精度人手几何模型,进而对人手几何模型进行可微渲染时,提高了人手三维模型的真实性。整个重建过程无需获取人手的深度数据和扫描数据,也无需从人手张开姿态进行时序跟踪,该人手重建网络可以在不知道人手形状的情况下,根据人手rgb图像处理后获得的人手几何顶点,自行预测人手的姿态,从而实现轻量、高效、真实的人手重建方法。
67.本技术实施例提供的人手重建网络,可以部署在用于虚拟/增强现实全息通信的服务器上,包括但不限于微服务器、云服务器、服务器集群,还可以部署在具有交互功能的笔记本电脑、台式计算机、智能手机、平板、vr眼镜、ar眼镜等客户端上。其中,服务器和客户端统称为重建设备。
68.本技术实施例既可以基于单视角的人手rgb图像进行重建,也可以基于多视角的人手rgb图像进行重建。
69.下面以单视角的人手rgb图像为例,描述本技术实施例提供的人手重建方法。
70.参见图1,为本技术实施例提供的基于单视角图像的人手重建的方法流程图,该流程由重建设备执行,主要包括以下几步:
71.s101:获取单视角的人手rgb图像。
72.在s101中,重建设备可以自带rgb相机,也可以与外部独立部署的rgb相机进行数据传输,rgb相机采集一帧人手rgb图像后传输给重建设备。
73.s102:通过训练好的人手重建网络中的编码器,从该人手rgb图像中提取出不同尺度的特征图以及人手特征向量。
74.本技术的实施例中,人手重建网络中的编码器可以有深度神经网络搭建。在执行s102时,将人手rgb图像输入到编码器中,编码器输出一个长向量(即人手特征向量)以及若干个不同尺度的特征图。其中,不同尺度的特征图可以表征对不同分辨率大小的人手rgb图像编码后特征。
75.需要说明的是,本技术实施例对编码器具体使用的神经网络不做限制性要求,包括但不限于vgg、resnet、hrnet等。
76.例如,以编码器使用的网络为resnet网络为例,当输入的人手rgb图像的分辨率为256*256像素时,经过resnet网络结构的多层结构时,输出三个不同尺度的特征图,大小分别为32*32像素、16*16像素和8*8像素,其中,每个像素点均包含256维的人手信息,分别组成了大小为256*32*32,256*16*16,256*8*8的三维矩阵。同时,在resnet网络的最后一层,经过池化层和多层感知机(multilayer perceptron,mlp)操作,也会输出2048维的人手特征向量,该人手特征向量含有人手rgb图像的全局信息。
77.s103:通过人手重建网络中的解码器,对该人手rgb图像中提取的人手特征向量进行若干次图卷积操作,得到目标人手几何顶点集合。
78.在s103中,通过人手重建网络中的解码器,首先将提取的全局人手特征向量重整为图卷积操作对应的人手网格中稀疏的几何顶点特征,人手对几何顶点特征进行若干次同等级别的图卷积操作,其中,在若干次图卷积操作中,解码器将逐步得到稀疏的几何顶点的三维坐标,采用投影方法或者自注意力机制(self-attention),根据每个几何顶点的三维坐标,从该人手rgb图像对应的不同尺度的特征图中提取人手信息,并将提取的人手信息分别与人手特征向量进行融合。
79.如图2所示,为本技术实施例提供的图卷积后的几何顶点和特征图中提取的人手信息融合示意图,其中,图2为一次融合过程,定义人手网格的信息为p=n*f大小的矩阵,其中第i行pi表示了第i个几何顶点的信息,图卷积(gcn)可以在不同的顶点间传递信息,通过投影或者自注意力机制,可以得到其在人手rgb图像中相关的信息fi,随后通过全连接层将图像中的信息fi融合进第i个几何顶点的信息pi中,得到第i个几何顶点在三维空间中的坐标v
i3d
。
80.在执行s103时,每次图卷积操作后,均进行一次上采样操作以增加每次图卷积操作后获得的几何顶点的数量,几何顶点的数量越多,人手模型的精细程度越高。
81.在s103中进行若干次图卷积操作中,将不同尺度的特征图中提取的人手信息分别与人手特征向量进行融合时,人手特征向量融合的人手信息对应的特征图的尺度,随着图卷积操作次数的增加而增大。这是因为,小分辨率的人手rgb图像和几何顶点数量较少的人手网格中蕴含更多的全局信息,而高分辨的人手rgb图像和几何顶点数量较多的人手网格中蕴含更多的细节信息。
82.具体实施时,在s103中,通过图卷积操作,将人手特征向量经过多层感知机重整为n*f矩阵,其中,n为人手网格中几何顶点的数量,f为每个几何顶点的信息维度。人手,分别从不同尺度的特征图中提取人手信息,并将人手信息与若干次图卷积操作后的几何顶点信息进行融合,融合后进行一次上采样操作,每次上采样操作后,人手网格中几何顶点的数量增加一倍,经过多次图卷积和上采样操作后,得到目标人手几何顶点集合。其中,特征图的数量和图卷积操作的次数可以相同,也可以不同。
83.例如,以3个尺度的特征图和五次图卷积操作为例,参见图3,通过第一次图卷积操作后,得到n*f矩阵。然后从8*8的特征图中提取人手信息,将人手信息与第一次图卷积操作后的几何顶点信息进行融合,融合后进行第一次上采样操作,得到2n*f矩阵,即人手网格中几何顶点的数量增加一倍,变为2n。随后,对第一次上采样后的结果进行第二次图卷积和上采样操作,得到4n*f矩阵。进一步地,对第二次上采样操作后的结果进行第三次图卷积操作,并从16*16的特征图中提取人手信息,将人手信息与第三次图卷积操作后的几何顶点信
息进行融合,融合后进行第三次上采样操作,得到8n*f矩阵。再次对第三次上采样后的结果进行第四次图卷积和上采样操作,得到16n*f矩阵。最后,对第四次上采样操作后的结果进行第五次图卷积操作,并从32*32的特征图中提取人手信息,将人手信息与第四次图卷积操作后的几何顶点信息进行融合,融合后进行第五次上采样操作,得到32n*f矩阵。
84.可选的,人手信息包括几何顶点的三维坐标和语义信息。
85.随着图卷积和上采样次数的增加,几何顶点间信息传递越丰富,几何顶点数量越多,得到人手模型越精细。
86.需要说明的是,特征图的数量和图卷积的次数可根据实际需求进行设置,本技术实施例不做限制性要求。
87.s104:根据目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型。
88.在执行s104时,具体过程参见图4,主要包括以下几步:
89.s1041:将目标人手几何顶点集合中几何顶点进行反向图卷积操作和全连接操作,获得人手骨架节点的三维坐标。
90.s1042:根据预先设定的蒙皮参数,驱动人手骨架节点的三维坐标变化,得到驱动后的人手几何模型。
91.参加图5,为本技术实施例提供的目标人手几何顶点集合中不同数量的几何顶点与模型精细程度的关系图,其中,几何顶点的数量越稀疏,模型的精度程度越低。如图5示出的,从左到右,目标人手几何顶点集合中几何顶点的数量依次增多,人手几何模型精细程度依次增高。
92.本技术实施例重建的人手几何模型具有语义信息,内嵌骨架,这样,在实际应用中,人手几何模型可通过运动参数驱动,并外接在人体三维模型上,实现全人体的虚拟角色效果。其中,驱动方法可采用双四元数的蒙皮驱动方法。
93.s105:根据人手rgb图像对人手几何模型进行可微渲染,得到纹理贴图后的人手三维模型。
94.对于纹理方面,在s105中,采用可微渲染方法,根据人手rgb图像构建逐像素点的颜色约束,生成一张人手纹理图,贴图后,得到人手三维模型。
95.参见图6,为本技术实施例提供的基于单视角的人手重建网络的结构图,针对单视角rgb相机采集的人手rgb图像,通过resnet网络构成的编码器,输出大小分别为32*32、16*16、8*8像素的特征图和一个2048维的人手特征向量。将人手特征向量输入至解码器,解码器对人手特征向量进行5次卷积操作,其中,在第1、3、5层的图卷积层分别引入了8*8、16*16、32*32的特征图中提取的人手信息,每次图卷积操作后上采样得到的几何顶点数分别为63、126、252、504、1008,模型精细程度依次提高,最后通过可微渲染,输出带有纹理的人手三维模型。
96.本技术实施例提供的人手重建方法,不仅适用于单视角的人手rgb图像,同样也适用于多视角的人手rgb图像,下面以多视角的人手rgb图像为例,描述本技术实施例提供的人手重建方法流程,参见图7,主要包括以下几步:
97.s701:获取多个视角的人手rgb图像。
98.在s701中,多个rgb相机从人手的不同视角拍摄rgb图像,并将拍摄的人手rgb图像传输给重建设备,由重建设备进行人手的三维重建。
99.s702:针对每张人手rgb图像,通过训练好的人手重建网络中的编码器,从该人手rgb图像中提取出不同尺度的特征图以及人手特征向量。
100.例如,参见图8,假设有n张人手rgb图像(即n个视角),编码器为resnet网络,将每张人手rgb图像输入至编码器后,分别输出32*32、16*16、8*8像素大小的特征图和2048维的人手特征向量。
101.s703:针对每一张人手rgb图像中提取的人手特征向量,通过人手重建网络中的解码器进行若干次图卷积操作,得到初始人手几何顶点集合。
102.在s703中,每张人手rgb图像经编码器编码后可以得到一个人手特征向量,通过解码器,对每个人手特征向量进行若干次图卷积操作,每次图卷积操作后进行上采样操作以增加图卷积操作后获得的几何顶点的数量,从而得到每张人手rgb图像中提取的人手特征向量对应的初始人手几何顶点集合。其中,在若干次图卷积操作中,将每张人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与该人手rgb图像对应的人手特征向量进行融合,其中,人手特征向量融合的人手信息对应的特征图的尺度,随着图卷积操作次数的增加而增大。
103.针对每张人手rgb图像中提取的不同尺度的特征图和人手特征向量进行图卷积和上采样操作的过程参见基于单视角图像的人手重建方法部分的描述。
104.s704:根据多个视角下采集人手rgb图像的rgb相机的参数,将多张人手rgb图像对应的初始人手几何顶点集合进行融合,得到目标人手几何顶点信息。
105.由于多个rgb相机位于人手的不同视角,因此,采集的多张人手rgb图像包含不同的人手可见部分,这样,每张人手rgb图像中提取的人手特征向量包含不同的人手特征,通过多视角特征融合,可以获得更准确的重建结果。
106.以2个视角为例,参见图9,为本技术实施例提供2个人手特征向量图卷积操作后的人手初始几何顶点集合融合过程示意图,将一张人手rgb图像编码后的2048维人手特征向量1输入至解码器,解码器对人手特征向量1进行5次(层)图卷积操作,在每层图卷积操作过程中,将该人手rgb图像中提取的8*8、16*16、32*32大小的特征图1中提取的人手信息,分别与1、3、5层图卷积后的结果进行特征融合,得到初始人手几何顶点集合1。同时,将另一张人手rgb图像编码后的2048维人手特征向量2输入至解码器,解码器对人手特征向量2进行5层图卷积操作,在每层图卷积操作过程中,将该人手rgb图像中提取的8*8、16*16、32*32大小的特征图2中提取的人手信息,分别与1、3、5层图卷积后的结果进行特征融合,得到初始人手几何顶点集合2。然后,将初始人手几何顶点集合1和初始人手几何顶点集合2进行融合,丰富不同视角看到的人手特征,得到目标人手几何顶点集合。
107.在s704中,对多个人手初始几何顶点集合进行融合时,需要知道每个rgb相机的参数,该参数包括人手相对于相应的rgb相机的旋转矩阵和平移向量,用于对多个初始人手几何顶点集合进行融合时,将多个初始人手几何顶点集合中的几何顶点统一到一个坐标系下。其中,本技术实施例对融合方式不做限制性要求,可采用最大池化方法进行融合,还可以采用自注意力机制进行融合。
108.其中,每个rgb相机的参数的确定方法有两种,分别为基于人手特征向量确定以及基于相机标定确定。当基于人手特征向量确定时,根据每张人手rgb图像提取出的人手特征向量,通过解码器的至少一个全连接层和激活函数,实时计算每个rgb相机的参数。当基于
相机标定确定时,根据多个视角的rgb相机采集的标定物图像,预先标定出每个视角上rgb相机的参数。
109.s705:根据目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型。
110.具体实施时,首先将目标人手几何顶点集合中几何顶点进行反向图卷积操作和全连接操作,获得人手骨架节点的三维坐标,然后根据预先设定的蒙皮参数,驱动人手骨架节点的三维坐标变化,得到驱动后的人手几何模型。
111.在s705中,基于多视角的人手rgb图像获得的目标人手几何顶点集合,相对于s104中基于单视角的人手rgb图像获得的目标人手几何顶点集合,包含不同视角看到的人手信息,提高了人手几何模型的准确性和真实性。
112.s706:根据多张人手rgb图像对人手几何模型进行可微渲染,得到纹理贴图后的人手三维模型。
113.在s706中,利用多张人手rgb图像进行可微渲染生成的人手纹理图,包含的纹理信息更丰富,使得贴图后的人手三维模型更加真实。
114.参见图10,为本技术实施例提供的基于多视角的人手重建网络的结构图,针对多个视角的rgb相机采集的人手rgb图像,通过resnet网络构成的编码器,分别输出大小分别为32*32、16*16、8*8像素的特征图和一个2048维的人手特征向量。将多个人手特征向量输入至解码器,解码器分别对每个人手特征向量进行5次卷积操作,其中,在第1、3、5层的图卷积层分别引入了8*8、16*16、32*32的相应特征图中提取的人手信息,每次图卷积操作后上采样得到的几何顶点数分别为63、126、252、504、1008。通过全连接层,根据多个人手特征向量确定每个相机相对于人手的参数,并利用该参数,采用最大池化或自注意力机制将各人手特征向量最终上采样后的结果进行融合,得到目标人手几何顶点集合。最后通过可微渲染,输出带有纹理的人手三维模型。
115.本技术实施例上述提供的人手重建方法,通过一台或多台普通的rgb相机和一个具有数据处理能力的民用级重建设备(如:配置有gtx系列显卡的电脑)便可实现,输入单视角或多视角的rgb相机采集的人手rgb图像,经过人手重建网络和可微渲染,输出一个带有纹理的人手三维模型,该人手三维模型表示为一个三维网格模型,该网格模型由若干个表面顶点的三维坐标、表面顶点构成的三角面片间的邻接关系以及一张纹理图构成。该方法仅需要单视角或多视角的人手rgb图像,不需要人手的扫描模型,也不需要深度信息,即可实现人手的重建,不仅重建人手的表面几何,同时重建人手的纹理特征,该网络可以在不知道人手形状的情况下,根据单张或多张人手rgb图像自行预测人手的姿态和形状,且在图卷积过程中,分层级引入了不同尺度的特征图中提取的人手信息,使得重建的人手三维模型相对于基于mano模板重建的三维模型更加精确、真实。
116.基于相同的技术构思,本技术实施例提供一种重建设备,该重建设备可以是具有数据处理能力的笔记本电脑、台式计算机、智能手机、平板、vr眼镜、ar眼镜等客户端,还可以是用于实现远程交互过程的服务器,包括但不限于微服务器、云服务器、服务器集群等,重建设备可实现上述实施例中人手重建方法的步骤,且能达到相同的技术效果。
117.参见图11,该重建设备包括处理器1101、存储器1102、显示屏1103和通信接口1104,所述通信接口1104、所述显示屏1103、所述存储器1102和所述处理器1101通过总线1105连接;
118.所述存储器1102包括数据存储单元和程序存储单元,所述程序存储单元存储有计算机程序,所述处理器1101根据所述计算机程序,执行以下操作:
119.通过所述通信接口1104,获取至少一个视角的rgb相机采集的人手rgb图像,并存储至所述数据存储单元;
120.通过训练好的人手重建网络中的编码器,从所述人手rgb图像中提取出不同尺度的特征图以及人手特征向量;
121.当所述人手rgb图像的数量为一张时,通过所述人手重建网络中的解码器,对所述人手rgb图像中提取的人手特征向量进行若干次图卷积操作,得到目标人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;
122.根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型;
123.根据至少一张人手rgb图像对所述人手几何模型进行可微渲染,得到纹理贴图后的人手三维模型,并通过所述显示屏1103进行显示。
124.可选的,当所述人手rgb图像的数量为多张时,所述处理器1101还执行:
125.针对每一张所述人手rgb图像中提取的人手特征向量,通过所述人手重建网络中的解码器进行若干次图卷积操作,得到初始人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;
126.根据多个视角下采集所述人手rgb图像的rgb相机的参数,将多张所述人手rgb图像对应的初始人手几何顶点集合进行融合,得到目标人手几何顶点信息。
127.可选的,所述处理器1101通过以下方式确定每个视角的rgb相机的参数:
128.根据每张所述人手rgb图像提取出的人手特征向量,通过所述解码器的至少一个全连接层和激活函数,计算相应rgb相机的参数;或者
129.根据多个视角的rgb相机采集的标定物图像,预先标定出所述每个视角上rgb相机的参数;
130.其中,每个rgb相机的参数包括人手相对于所述rgb相机的旋转矩阵和平移向量,用于对多个所述初始人手几何顶点集合进行融合时,将多个所述初始人手几何顶点集合中的几何顶点统一到一个坐标系下。
131.可选的,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合时,所述人手特征向量融合的所述人手信息对应的特征图的尺度,随着图卷积操作次数的增加而增大。
132.可选的,所述处理器1101根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型,具体操作为:
133.将所述目标人手几何顶点集合中几何顶点进行反向图卷积操作和全连接操作,获得人手骨架节点的三维坐标;
134.根据预先设定的蒙皮参数,驱动所述人手骨架节点的三维坐标变化,得到驱动后的人手几何模型。
135.可选的,所述处理器1101在每次图卷积操作后进行上采样操作以增加图卷积操作后获得的几何顶点的数量。
136.需要说明的是,图11仅是一种示例,给出重建设备实现本技术实施例提供的人手重建方法步骤所必要的硬件,未示出的,该重建设备还包含扬声器、麦克风、电源、音频处理器等交互设备的常用器件。
137.本技术实施例图11中涉及的处理器可以是中央处理器(central processing unit,cpu),通用处理器,图形处理器(graphics processing unit,gpu)数字信号处理器(digital signal processor,dsp),专用集成电路(application-specific integrated circuit,asic),现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
138.参见图12,为本技术实施例提供的重建设备的功能结构图,该重建设备主要包括获取模块1201、特征提取模块1202、图卷积操作模块1203、几何重建模块1204和纹理重建模块1205,其中:
139.获取模块1201,用于获取至少一个视角的人手rgb图像;
140.特征提取模块1202,用于通过训练好的人手重建网络中的编码器,从所述人手rgb图像中提取出不同尺度的特征图以及人手特征向量;
141.图卷积操作模块1203,用于当所述人手rgb图像的数量为一张时,通过所述人手重建网络中的解码器,对所述人手rgb图像中提取的人手特征向量进行若干次图卷积操作,得到目标人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;
142.几何重建模块1204,用于根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型;
143.纹理重建模块1205,用于根据至少一张人手rgb图像对所述人手几何模型进行可微渲染,得到纹理贴图后的人手三维模型。
144.可选的,当所述人手rgb图像的数量为多张时,该重建设备的图卷积操作模块1203还用于针对每一张所述人手rgb图像中提取的人手特征向量,通过所述人手重建网络中的解码器进行若干次图卷积操作,得到初始人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;
145.此时,该重建设备还包括,还包括融合模块1206,用于:
146.根据多个视角下采集所述人手rgb图像的rgb相机的参数,将多张所述人手rgb图像对应的初始人手几何顶点集合进行融合,得到目标人手几何顶点信息。
147.上述各功能模块的具体实现参见前述实施例,在此不再重复描述。
148.本技术实施例还提供一种计算机可读存储介质,用于存储一些指令,这些指令被执行时,可以完成前述实施例中人手重建方法。
149.本技术实施例还提供一种计算机程序产品,用于存储计算机程序,该计算机程序用于执行前述实施例中人手重建方法。
150.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
151.本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
152.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
153.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
154.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
技术特征:1.一种人手重建方法,其特征在于,包括:获取至少一个视角的人手rgb图像;通过训练好的人手重建网络中的编码器,从所述人手rgb图像中提取出不同尺度的特征图以及人手特征向量;当所述人手rgb图像的数量为一张时,通过所述人手重建网络中的解码器,对所述人手rgb图像中提取的人手特征向量进行若干次图卷积操作,得到目标人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型;根据至少一张人手rgb图像对所述人手几何模型进行可微渲染,得到纹理贴图后的人手三维模型。2.如权利要求1所述的方法,其特征在于,当所述人手rgb图像的数量为多张时:针对每一张所述人手rgb图像中提取的人手特征向量,通过所述人手重建网络中的解码器进行若干次图卷积操作,得到初始人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;根据多个视角下采集所述人手rgb图像的rgb相机的参数,将多张所述人手rgb图像对应的初始人手几何顶点集合进行融合,得到目标人手几何顶点信息。3.如权利要求2所述的方法,其特征在于,多个视角rgb相机的参数是通过以下方式确定的:根据每张所述人手rgb图像提取出的人手特征向量,通过所述解码器的至少一个全连接层和激活函数,计算相应rgb相机的参数;或者根据多个视角的rgb相机采集的标定物图像,预先标定出所述每个视角上rgb相机的参数;其中,每个rgb相机的参数包括人手相对于所述rgb相机的旋转矩阵和平移向量,用于对多个所述初始人手几何顶点集合进行融合时,将多个所述初始人手几何顶点集合中的几何顶点统一到一个坐标系下。4.如权利要求1-3中任一项所述的方法,其特征在于,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合时,所述人手特征向量融合的所述人手信息对应的特征图的尺度,随着图卷积操作次数的增加而增大。5.如权利要求1-3中任一项所述的方法,其特征在于,所述根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型,包括:将所述目标人手几何顶点集合中几何顶点进行反向图卷积操作和全连接操作,获得人手骨架节点的三维坐标;根据预先设定的蒙皮参数,驱动所述人手骨架节点的三维坐标变化,得到驱动后的人手几何模型。6.如权利要求1-3中任一项所述的方法,其特征在于,每次图卷积操作后进行上采样操作以增加图卷积操作后获得的几何顶点的数量。
7.一种重建设备,其特征在于,包括处理器、存储器、显示屏和通信接口,所述通信接口、所述显示屏、所述存储器和所述处理器通过总线连接;所述存储器包括数据存储单元和程序存储单元,所述程序存储单元存储有计算机程序,所述处理器根据所述计算机程序,执行以下操作:通过所述通信接口,获取至少一个视角的rgb相机采集的人手rgb图像,并存储至所述数据存储单元;通过训练好的人手重建网络中的编码器,从所述人手rgb图像中提取出不同尺度的特征图以及人手特征向量;当所述人手rgb图像的数量为一张时,通过所述人手重建网络中的解码器,对所述人手rgb图像中提取的人手特征向量进行若干次图卷积操作,得到目标人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;根据所述目标人手几何顶点集合中几何顶点的三维坐标,获得人手几何模型;根据至少一张人手rgb图像对所述人手几何模型进行可微渲染,得到纹理贴图后的人手三维模型,并通过所述显示屏进行显示。8.如权利要求7所述的重建设备,其特征在于,当所述人手rgb图像的数量为多张时,所述处理器还执行:针对每一张所述人手rgb图像中提取的人手特征向量,通过所述人手重建网络中的解码器进行若干次图卷积操作,得到初始人手几何顶点集合;其中,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合;根据多个视角下采集所述人手rgb图像的rgb相机的参数,将多张所述人手rgb图像对应的初始人手几何顶点集合进行融合,得到目标人手几何顶点信息。9.如权利要求7或8所述的重建设备,其特征在于,在若干次图卷积操作中,将所述人手rgb图像对应的不同尺度的特征图中提取的人手信息,分别与所述人手rgb图像对应的人手特征向量进行融合时,所述人手特征向量融合的所述人手信息对应的特征图的尺度,随着图卷积操作次数的增加而增大。10.如权利要求7或8所述的重建设备,其特征在于,所述处理器在每次图卷积操作后进行上采样操作以增加图卷积操作后获得的几何顶点的数量。
技术总结本申请涉及三维重建技术领域,提供一种人手重建方法及设备,将单视角或多视角的人手RGB图像输入人手重建网络,获得带有纹理的人手三维模型。该人手重建网络包括编码器和解码器,编码器从每张人手RGB图像中提取不同尺度的特征图和人手特征向量,解码器对各人手特征向量进行若干次图卷积和上采样操作生成人手几何模型;由于不同尺度的特征图包含的人手信息的丰富度不同,图卷积操作时,将每张人手RGB图像对应的不同尺度的特征图中提取的人手信息与相应的人手特征向量进行融合,使得上采样后的目标人手几何顶点集合包含更多的人手全局信息和细节信息,从而提高了人手三维模型的准确性和真实性。准确性和真实性。准确性和真实性。
技术研发人员:李梦成 刘烨斌 杨智远 张思栋 王宝云 于芝涛 吴连朋
受保护的技术使用者:清华大学 海信视像科技股份有限公司
技术研发日:2022.07.12
技术公布日:2022/11/1