1.本发明属于人脸伪造检测技术领域,具体涉及一种基于时-空频域线索增强的人脸伪造检测系统和方法。
背景技术:2.近年来,越来越多的研究者开始探索人脸伪造检测方法。现有方法将视频伪造检测定义为二分类问题,并探索图像帧级和视频级的解决方案。
3.针对图像帧级的伪造检测,早期的人脸生成技术由于不可控的特性,往往会在面部区域直接显示出明显的视觉伪影和不一致现象。许多以前的工作使用面部或头部统计不一致来进行图像伪造检测。然而,随着人脸伪造技术的发展,这些基于图像的检测器可能无法捕获跨多个帧的时间不一致。因此,目前大量的研究工作开始致力于探索视频级特征。
4.针对视频级的伪造检测,早期的伪造生成技术相对有限,在视觉上可能会表现出明显的帧间时间不一致。近年来,随着深度神经网络和生成对抗网络技术的广泛应用,人脸生成和编辑技术变得越来越真实和可控,但也给数字取证带来了更多的安全问题。
5.考虑到频域的合成图像往往更能反映微妙的视觉伪影,在频域的伪造检测领域的研究越来越受欢迎,例如离散傅里叶变换和离散余弦变换。tarikdzanic等人发现,傅里叶频谱中高频分量的衰减率在真实和深度网络生成的图像之间是明显可区分的。利用这个线索,它提出了一种新的模型来检测合成图像。jiaming li等人认为固定滤波器和手工制作的特征不足以从频域中提取伪造特征。因此,提出了单中心损失来使真实类的类内特征更加紧凑。所有上述方法都局限于探索微妙的空间伪影,但很少关注不同帧之间的时间频域线索。
6.现有基于图像的人脸伪造检测技术仅仅关注在图像或者视频中的单帧来检测,这对于伪造视频来说往往忽视了帧间的不一致性。虽然现有基于图像的技术已经在单张图像上探索了在频域上的伪造线索,但是并没有进一步探索对于一段视频帧,帧与帧之间的频域上的不一致现象。
技术实现要素:7.为了解决现有技术中存在的上述问题,本发明提供了一种基于时-空频域线索增强的人脸伪造检测系统和方法。本发明要解决的技术问题通过以下技术方案实现:
8.本发明的一个方面提供了一种基于时-空频域线索增强的人脸伪造检测系统,包括人脸图像获取模块、主干网络模块、频域转化模块、增强模块、时空特征提取模块和真伪判别模块,其中,
9.所述人脸图像获取模块用于提取待检测视频的多帧图像,并截取每一帧图像的人脸区域形成多帧人脸图像;
10.所述主干网络模块用于提取所述人脸图像的特征向量,获得所述多帧人脸图像的特征图序列;
11.所述频域转化模块用于利用离散余弦变换将所述特征图序列映射到频域上,获得所述特征图序列对应的离散余弦变换频谱序列;
12.所述增强模块用于利用设定的权重矩阵对所述离散余弦变换频谱序列进行特征增强,获得增强后的频谱序列;
13.所述时空特征提取模块用于利用增强后的频谱序列获得空间频域线索和时间频域注意力图,并形成时空频域特征;
14.所述真伪判别模块用于根据所述时空频域特征待检测视频的人脸真伪。
15.在本发明的一个实施例中,所述人脸图像获取模块包括图像帧提取单元和facenet网络单元,其中,
16.所述图像帧提取单元用于从所述待检测视频中随机提取出n帧包含人脸的图像;
17.所述facenet网络单元用于获取所述包含人脸的图像中人脸的坐标点,并截取每帧图像中的人脸区域,形成n帧人脸图像。
18.在本发明的一个实施例中,所述主干网络模块为经训练的resnet50网络或xceptionnet网络。
19.在本发明的一个实施例中,所述时空特征提取模块包括紧凑空间特征提取单元、频域时间注意力单元以及合成单元,其中,
20.所述紧凑空间特征提取单元用于将每帧增强后的频谱均匀分为k块,选取每块中的块内像素点最大值作为当前块压缩后的特征值,形成每帧图像压缩后的空间特征图;
21.所述频域时间注意力单元用于根据增强后的频谱序列获得每帧图像的时间频域注意力图;
22.所述合成单元用于将每帧图像的压缩后的空间特征图和时间频域注意力图进行合并,形成最终的时空频域特征。
23.在本发明的一个实施例中,所述频域时间注意力单元具体用于:
24.对增强后的频谱序列中的每帧频谱图f在通道维度上使用l2范数的方法进行压缩,得到每帧频谱图f压缩后的注意力矩阵:
[0025][0026]
其中,c是特征图的通道数,a(n,h,w)表示第n帧频谱特征图在位置 (h,w)的注意力分数;
[0027]
将所述注意力矩阵进行归一化,获得归一化后的注意力矩阵:
[0028][0029]
其中,h
′
,w
′
分别为特征图的高度和宽度;
[0030]
将归一化后的注意力矩阵平均划分为k块,对于每块区域使用块内特征点的分数总和作为当前块的注意力分数,获得分块后的注意力矩阵表示:
[0031]a″
(n)={a
″
(n,1),a
″
(n,2)
…a″
(n,k)}
[0032]
对分块后的注意力矩阵a
″
进行归一化操作,最终得到的时间频域注意力图a
fda
,表示为:
[0033][0034]
本发明的另一方面提供了一种基于时-空频域线索增强的人脸伪造检测方法,包括:
[0035]
s1:提取待检测视频的多帧图像,并截取每一帧图像的人脸区域形成多帧人脸图像;
[0036]
s2:利用经训练的主干网络提取所述人脸图像的特征向量,获得所述多帧人脸图像的特征图序列;
[0037]
s3:利用离散余弦变换将所述特征图序列映射到频域上,获得所述特征图序列对应的离散余弦变换频谱序列;
[0038]
s4:利用设定的权重矩阵对所述离散余弦变换频谱序列进行特征增强,获得增强后的频谱序列;
[0039]
s5:利用增强后的频谱序列获得每帧图像的时间频域注意力图和时间频域注意力图,并形成时空频域特征;
[0040]
s6:根据所述时空频域特征,利用预先训练的分类器获得待检测视频的人脸真伪。
[0041]
在本发明的一个实施例中,所述离散余弦变换的表达式为:
[0042][0043][0044]
其中,m(i,j)表示主干网络提取的一帧特征图,u,v表示离散余弦变换光谱的坐标,h
′
,w
′
分别为主干网络提取的特征图的高度和宽度。
[0045]
在本发明的一个实施例中,所述s4包括:
[0046]
将离散余弦变换后的离散余弦变换频谱序列d(u,v)与设定的系数矩阵相乘后,得到增强后的频谱序列f={f(1),f(2)
…
f(n)},其中,f(n) 表示第n帧人脸图像对应的增强后频谱,其中,
[0047][0048]
其中,β
α
表示与权重矩阵中坐标对应位置处的权重值。
[0049]
在本发明的一个实施例中,所述s5包括:
[0050]
将每帧增强后的频谱均匀分为k块,选取每块中的块内像素点最大值作为当前块压缩后的特征值,形成每帧图像压缩后的空间特征图;
[0051]
根据增强后的频谱序列获得每帧图像的时间频域注意力图;
[0052]
将每帧图像的压缩后的空间特征图和时间频域注意力图进行合并,形成最终的时空频域特征。
[0053]
在本发明的一个实施例中,所述方法还包括:
[0054]
利用训练数据集对所述主干网络和所述分类器一同进行训练,并利用交叉熵损失更新分类器和主干网络的参数,所述训练数据集包括多个视频数据集,每个视频数据集中包含当前视频标注了真伪标签的多帧图像。
[0055]
与现有技术相比,本发明的有益效果在于:
[0056]
1、本发明基于时-空频域线索增强的人脸伪造检测系统和方法,将原始图像放在频域上进行分析,提出的空间频域线索增强矩阵,增大生成的伪造图像在中高频成分上的差异,可以有效提高准确率,通过分块的策略得到紧凑的空间特征表示,合理地应对了离散傅里叶变换的离散特性。
[0057]
2、本发明首次将频域引入到时间特征线索中,并利用注意力机制捕获到多帧之间的时间伪造信息,同时考虑了时间和空间上的频域伪造线索,最终得到的特征更加具有分辨性和鲁棒性。
[0058]
3、本发明可以应对多模态图像或视频的问题,通过使用离散余弦变换将视频帧序列转换到频域上,通过探寻频域上不同成分的差异来判别视频的真伪,从而消除了不同模态图像的光谱差异。
[0059]
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
[0060]
图1是本发明实施例提供的一种基于时-空频域线索增强的人脸伪造检测系统的模块框图;
[0061]
图2是本发明实施例提供的一种基于时-空频域线索增强的人脸伪造检测系统的具体结构示意图;
[0062]
图3是本发明实施例提供的一种权重矩阵的示意图;
[0063]
图4是本发明实施例提供的一种基于时-空频域线索增强的人脸伪造检测方法的流程图。
具体实施方式
[0064]
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于时-空频域线索增强的人脸伪造检测系统和方法进行详细说明。
[0065]
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
[0066]
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
[0067]
实施例一
[0068]
请参见图1和图2,本实施例的人脸伪造检测系统包括人脸图像获取模块1、主干网络模块2、频域转化模块3、增强模块4、时空特征提取模块5和真伪判别模块6。人脸图像获取模块1用于提取待检测视频的多帧图像,并截取每一帧图像的人脸区域形成多帧人脸图像。本实施例的人脸图像获取模块1包括图像帧提取单元和facenet网络单元,其中,所述图像帧提取单元用于从所述待检测视频中随机提取出n帧包含人脸的图像;所述facenet网络单元用于获取所述包含人脸的图像中人脸的坐标点,并截取每帧图像中的人脸区域,形成n帧人脸图像。具体地,首先从待检测视频中随机提取出n帧包含人脸的图像,由于伪造视频或图片中的篡改区域通常仅限于人脸区域,为了防止其他区域影响最终的检测结果,随后使用facenet网络提取人脸图像中人脸的坐标点,并提取每一帧图像中的人脸区域,截取每一帧图像的人脸区域形成n帧人脸图像帧图像的人脸区域形成n帧人脸图像其中,h,w分别为截取后人脸图像的高度和宽度。n帧人脸图像共同组成待检测视频的视频输入序列i={f1,f2,f3…fn
}。
[0069]
本实施例的主干网络模块2用于提取人脸图像的特征向量,获得多帧人脸图像的特征图序列。具体地,将每一帧人脸图像输入到主干网络模块2中并通过主干网络输出每一帧人脸图像的特征图,共同组成特征图序列共同组成特征图序列其中,h
′
,w
′
分别为特征图的高度和宽度,c表示特征图的通道数。在本实施例中,可以使用resnet50网络或 xceptionnet网络作为主干网络模块。在其他实施例中,还可以使用能够进行人脸特征提取的其他深度学习网络模型。
[0070]
本实施例的频域转化模块3用于利用离散余弦变换将特征图序列映射到频域上,获得特征图序列对应的离散余弦变换频谱序列。离散余弦变换 (discrete cosine transform,dct)类似离散傅里叶变换(dft),dct空间中的点序列为不同频域余弦函数的和。给定一个空间像素矩阵,例如一帧人脸图像的特征图其二维离散
余弦变换可以表示为:
[0071][0072][0073]
其中,m(i,j)表示主干网络模型2提取的特征图,u,v表示离散余弦变换频谱序列d(u,v)的坐标。与dft相比,dct在频域上具有更好的能量集中性能,可以直接过滤掉不重要的频域区域和系数,因此被广泛应用于图像压缩任务。总之,令表示主干网络提取的特征图序列。根据上述方程将得到的二维空间像素特征图转换至频域,得到二维频谱序列谱,记为
[0074]
进一步的,增强模块4用于利用设定的权重矩阵对离散余弦变换频谱序列进行特征增强,获得增强后的频谱序列。
[0075]
通常认为中高频段频谱上的分量在真实图像与伪造或合成图像之间非常不一致,因此应当尽可能多地利用中高频成分,并增加中高频成分在频谱中的影响程度。因此,本实施例提供了一种权重矩阵来增加中高频成分的影响程度,请参见图3,图3是本发明实施例提供的一种权重矩阵的示意图。本实施例利用设定的权重矩阵对所述离散余弦变换频谱序列进行特征增强,获得增强后的频谱序列,所述权重矩阵的尺寸等于每个离散余弦变换频谱的尺寸,对于二维dct,方程可以表示为:
[0076][0077]
其中,u,v为二维dct频谱图的坐标,β
α
表示与所述权重矩阵中坐标 (u,v)对应位置处的权重值,这里根据经验取为
[0078]
将离散余弦变换后的二维频谱序列谱与上述权重矩阵相乘后,得到二维dct增强频谱序列f={f(1),f(2)
…
f(n)},记为
[0079]
接着,时空特征提取模块5能够利用增强后的频谱序列获得空间频域线索和时间频域注意力图,并形成时空频域特征。
[0080]
继续请参见图2,本实施例的时空特征提取模块5包括紧凑空间特征提取单元、频域时间注意力单元以及合成单元,其中,所述紧凑空间特征提取单元用于将每帧增强后的
频谱均匀分为k块,选取每块中的块内像素点最大值作为当前块压缩后的特征值,形成每帧图像压缩后的空间特征图;所述频域时间注意力单元用于根据增强后的频谱序列获得每帧图像的时间频域注意力图;所述合成单元用于将每帧图像的压缩后的空间特征图和时间频域注意力图进行合并,形成最终的时空频域特征。
[0081]
具体地,考虑到离散余弦变换的离散性,即一些最有价值和最有效的信息往往分布在不同的部分,本实施例采用分块策略获得最终的紧凑空间特征。首先利用紧凑空间特征提取单元将每一帧得到的离散余弦变换谱分成k块,其中n=1,2,
…
n,表示视频的第n帧图像,在本实施例中,将f(n)平均分成16块,每块的高和宽分别为h
′
/4和w
′
/4。随后取每一块中的块内像素点的最大值作为本块的特征表达,从而将增强的频谱图f(n)从h
′×w′
维度压缩到了k维,压缩后的特征图作为最终的紧凑空间特征表示,即空间频域伪造线索。
[0082]
进一步地,所述频域时间注意力单元具体用于:
[0083]
对增强后的频谱序列中的每帧频谱图f在通道维度上使用l2范数的方法进行压缩,得到每帧频谱图f压缩后的注意力矩阵:
[0084][0085]
其中,c是特征图的通道数,a(n,h,w)表示第n帧频谱特征图在位置 (h,w)的注意力分数;
[0086]
将所述注意力矩阵进行归一化,获得归一化后的注意力矩阵:
[0087][0088]
其中,h
′
,w
′
分别为特征图的高度和宽度;
[0089]
将归一化后的注意力矩阵平均划分为k块,对于每块区域使用块内特征点的分数总和作为当前块的注意力分数,获得分块后的注意力矩阵表示:
[0090]a″
(n)={a
″
(n,1),a
″
(n,2)
…a″
(n,k)}
[0091]
对分块后的注意力矩阵a
″
进行归一化操作,最终得到的时间频域注意力图a
fda
,表示为:
[0092][0093]
所述合成单元具体用于将空间频域伪造线索和时间频域注意力图合并在一起,形成最终的时空频域伪造特征形成最终的时空频域伪造特征
[0094]
[0095]
进一步地,本实施例的真伪判别模块6用于根据时空频域特征待检测视频的人脸真伪。该真伪判别模块6包括经训练的分类器,具体地,将上述时空频域伪造特征fc输入到三层全连接层构成的分类器中,分类器通过 softmax函数输出每一种类别(真或假)的概率,其中softmax函数的公式为:
[0096][0097]
其中,xi表示分类器的输出向量中第i类的值,xj表示输出向量中第j 维的值,n是输出向量的维数。
[0098]
需要说明的是,在实际利用该人脸伪造检测系统进行人脸图像伪造检测过程中,首先需要对该人脸伪造检测系统中的主干网络和分类器进行训练,本实施例使用开源的数据集wilddeepfake作为训练集对主干网络和分类器进行训练,该数据集中包括已经处理好视频的图片帧,并且对这些图片帧的真伪已经加注了标签。在训练过程中,将所述训练集中的图片依次输入到该人脸伪造检测系统中,得到图片真假的概率值,随后将得到真假的概率值使用交叉熵损失函数得到当前人脸伪造检测系统的误分类损失,并利用该损失更新分类器和主干网络的参数,该交叉熵损失函数为:
[0099][0100]
其中,xi表示模型的输出向量中第i类的值,σ(xi)为真或假的概率, yi表示输入图片真实的类标签,当图片人脸为真时,yi=1,当图片人脸为假时,yi=0,n为输出向量的维度,n=2。
[0101]
利用所述训练集重复进行多轮训练,在训练的过程中不断更新主干网络和分类器网络中的参数,不断提高系统识别图像真伪的准确度。为了防止过拟合现象的发生,在连续5轮训练的准确率均不上升时,停止训练,即可获得训练后的主干网络和分类器,进而获得训练后的人脸伪造检测系统。
[0102]
本发明实施例基于时-空频域线索增强的人脸伪造检测系统,将原始图像放在频域上进行分析,提出的空间频域线索增强矩阵,增大生成的伪造图像在中高频成分上的差异,可以有效提高准确率,通过分块的策略得到紧凑的空间特征表示,合理地应对了离散傅里叶变换的离散特性。
[0103]
实施例二
[0104]
请参见图4,图4是本发明实施例提供的基于时-空频域线索增强的人脸伪造检测方法的流程图。该方法包括:
[0105]
s1:提取待检测视频的多帧图像,并截取每一帧图像的人脸区域形成多帧人脸图像。
[0106]
首先,从待检测视频中随机提取出n帧包含人脸的图像,使用facenet网络提取人脸图像中人脸的坐标点,随后提取每一帧图像中的人脸区域,并截取每一帧图像的人脸区域形成n帧人脸图像域形成n帧人脸图像其中,h,w分别为截取后人脸图像的高度和宽度。n帧人脸图像共同组成待检测视频的视频输入序列i={f1,f2,f3…fn
}。
[0107]
s2:提取人脸图像的特征向量,获得每帧人脸图像的特征图序列。
[0108]
本实施例利用主干网络来提取每一帧人脸图像的特征图本实施例利用主干网络来提取每一帧人脸图像的特征图其中,h
′
,w
′
分别为特征图的高度和宽度,c表示特征图的通道数。具体地,将每一帧人脸图像输入到所述主干网络中并通过主干网络输出每一帧人脸图像的特征图。在本实施例中,可以使用resnet50网络或xceptionnet网络作为主干网络。
[0109]
s3:利用离散弦变换将得到的特征图序列映射到频域上,获得每个特征图序列对应的离散余弦变换光谱。
[0110]
本实施例使用离散余弦变换(discrete cosine transform,dct)将得到的特征图序列映射到频域上。令表示主干网络提取的特征图序列。根据实施例一中的离散余弦变换方程,将得到的二维空间像素特征图转换至频域,得到二维频谱序列谱,记为
[0111]
s4:利用设定的权重矩阵对所述离散余弦变换频谱序列进行特征增强,获得增强后的频谱序列。
[0112]
本实施例提供了一种权重矩阵来增加中高频成分的影响程度,如图3所示,利用设定的权重矩阵对所述离散余弦变换频谱序列进行特征增强,获得增强后的频谱序列,所述权重矩阵的尺寸等于每个离散余弦变换频谱的尺寸,对于二维dct,
[0113]
方程可以表示为:
[0114][0115]
其中,u,v为二维dct频谱图的坐标,β
α
表示与所述权重矩阵中坐标 (u,v)对应位置处的权重值,这里根据经验取为
[0116]
s5:利用增强后的频谱序列获得每帧图像的时间频域注意力图和时间频域注意力图,并形成时空频域特征。
[0117]
为了填补在频域分析整个视频序列而不是单个图像的空白问题,本实施例引入了基于离散余弦变换的伪造线索增强网络用于伪造检测。该伪造线索增强网络由紧凑空间特征提取模块和频域时间注意模块组成。目标是充分利用现有方法中没有考虑到的帧图像序列中丰富的信息,挖掘多帧之间的时空频域线索,最终在频域上实现更全面的特征表示。
[0118]
进一步地,本实施例采用紧凑空间特征提取模块来呈现紧凑的空间特征表示。该紧凑空间特征提取模块用于对上述dct增强频谱序列f进行压缩,得到更紧凑的特征表示。
[0119]
具体地,本实施例采用分块策略获得最终的紧凑空间特征。首先将每一帧得到的离散余弦变换谱分成k块,其中n=1,2,
…
n,在本实施例中,将f(n)平
均分成16块,每块的高和宽分别为h
′
/4和w
′
/4。然后将取每一块中的块内像素点的最大值作为本块的特征表达,因此就将增强的频谱图f(n)从h
′×w′
维度压缩到了k维,压缩后的特征图征图作为最终的紧凑空间特征表示,即空间频域伪造线索。
[0120]
为了进一步探索多帧之间的时间频域线索,本实施例还设计了一个频域时间注意模块。与紧凑空间特征提取模块类似,该频域时间注意模块的输入也是经过增强的二维dct增强频谱该模块的目标是基于离散余弦变换频谱构建注意力图首先,我们对增强的 dct频谱图f在通道维度上使用l2范数的方法进行压缩。得到的每帧上特征图的通道压缩表示为:
[0121][0122]
其中,c是通道数,a(n,h,w)表示第n帧频谱特征图在位置(h,w)的注意力分数。随后为了将所有注意力分数组成的注意力矩阵中的所有值进行归一化,将值控制在0-1之间,归一化后的结果为:
[0123][0124]
进一步地,遵循紧凑空间特征提取模块中的相同原则,本实施例还将归一化后的注意力图矩阵划分为k块,对于每个区域,使用块内特征点的分数总和作为当前块的注意力分数。分块后的注意力矩阵表示为:
[0125]a″
(n)={a
″
(n,1),a
″
(n,2)
…a″
(n,k)}
[0126]
由于采用块内特征点求和的方式代表每块的特征表示,因此为了避免训练过程中数据过大造成梯度爆炸现象,本实施例采用基于的l1 范数的方法进一步对分块后的注意力矩阵a
″
进行归一化操作,最终得到的时间频域注意力图a
fda
,表示为:
[0127][0128]
最后,将空间频域伪造线索和时间频域注意力图和时间频域注意力图合并在一起,形成最终的时空频域伪造特征
[0129][0130]
该特征即为对一段视频的最终真伪特征表示,将该特征输入到三层全连接层构成的分类器中,分类器通过softmax函数输出每一种类别(真或者假) 的概率,其中softmax函数的公式为:
[0131][0132]
其中,xi表示分类器的输出向量中第i类的值,xj表示输出向量中第j维的值,n是输出向量的维数。
[0133]
需要说明的是,在实际利用该人脸伪造检测系统进行人脸图像伪造检测过程中,首先需要对该人脸伪造检测系统中的主干网络和分类器进行训练,本实施例使用开源的数据集wilddeepfake作为训练集对主干网络和分类器进行训练,该数据集中包括已经处理好视频的图片帧,并且对这些图片帧的真伪已经加注了标签。具体训练过程请参见实施例一,这里不再赘述。
[0134]
本发明实施例基于时-空频域线索增强的人脸伪造检测方法,将原始图像放在频域上进行分析,提出的空间频域线索增强矩阵,增大生成的伪造图像在中高频成分上的差异,可以有效提高准确率,通过分块的策略得到紧凑的空间特征表示,合理地应对了离散傅里叶变换的离散特性。本发明实施例首次将频域引入到时间特征线索中,并利用注意力机制捕获到多帧之间的时间伪造信息,同时考虑了时间和空间上的频域伪造线索,最终得到的特征更加具有分辨性和鲁棒性。本发明实施例可以应对多模态图像或视频的问题,通过使用离散余弦变换将视频帧序列转换到频域上,通过探寻频域上不同成分的差异来判别视频的真伪,从而消除了不同模态图像的光谱差异。
[0135]
在本发明所提供的几个实施例中,应该理解到,本发明所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0136]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0137]
本发明的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序用于执行上述实施例中所述基于时-空频域线索增强的人脸伪造检测方法的步骤。本发明的再一方面提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上述实施例所述基于时-空频域线索增强的人脸伪造检测方法的步骤。具体地,上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory, ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0138]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
技术特征:1.一种基于时-空频域线索增强的人脸伪造检测系统,其特征在于,包括人脸图像获取模块、主干网络模块、频域转化模块、增强模块、时空特征提取模块和真伪判别模块,其中,所述人脸图像获取模块用于提取待检测视频的多帧图像,并截取每一帧图像的人脸区域形成多帧人脸图像;所述主干网络模块用于提取所述人脸图像的特征向量,获得所述多帧人脸图像的特征图序列;所述频域转化模块用于利用离散余弦变换将所述特征图序列映射到频域上,获得所述特征图序列对应的离散余弦变换频谱序列;所述增强模块用于利用设定的权重矩阵对所述离散余弦变换频谱序列进行特征增强,获得增强后的频谱序列;所述时空特征提取模块用于利用增强后的频谱序列获得空间频域线索和时间频域注意力图,并形成时空频域特征;所述真伪判别模块用于根据所述时空频域特征待检测视频的人脸真伪。2.根据权利要求1所述的基于时-空频域线索增强的人脸伪造检测系统,其特征在于,所述人脸图像获取模块包括图像帧提取单元和facenet网络单元,其中,所述图像帧提取单元用于从所述待检测视频中随机提取出n帧包含人脸的图像;所述facenet网络单元用于获取所述包含人脸的图像中人脸的坐标点,并截取每帧图像中的人脸区域,形成n帧人脸图像。3.根据权利要求1所述的基于时-空频域线索增强的人脸伪造检测系统,其特征在于,所述主干网络模块为经训练的resnet50网络或xceptionnet网络。4.根据权利要求1所述的基于时-空频域线索增强的人脸伪造检测系统,其特征在于,所述时空特征提取模块包括紧凑空间特征提取单元、频域时间注意力单元以及合成单元,其中,所述紧凑空间特征提取单元用于将每帧增强后的频谱均匀分为k块,选取每块中的块内像素点最大值作为当前块压缩后的特征值,形成每帧图像压缩后的空间特征图;所述频域时间注意力单元用于根据增强后的频谱序列获得每帧图像的时间频域注意力图;所述合成单元用于将每帧图像的压缩后的空间特征图和时间频域注意力图进行合并,形成最终的时空频域特征。5.根据权利要求4所述的基于时-空频域线索增强的人脸伪造检测系统,其特征在于,所述频域时间注意力单元具体用于:对增强后的频谱序列中的每帧频谱图f在通道维度上使用l2范数的方法进行压缩,得到每帧频谱图f压缩后的注意力矩阵:其中,c是特征图的通道数,a(n,h,w)表示第n帧频谱特征图在位置(h,w)的注意力分数;
将所述注意力矩阵进行归一化,获得归一化后的注意力矩阵:其中,h
′
,w
′
分别为特征图的高度和宽度;将归一化后的注意力矩阵平均划分为k块,对于每块区域使用块内特征点的分数总和作为当前块的注意力分数,获得分块后的注意力矩阵表示:a
″
(n)={a
″
(n,1),a
″
(n,2)
…
a
″
(n,k)}对分块后的注意力矩阵a
″
进行归一化操作,最终得到的时间频域注意力图a
fda
,表示为:6.一种基于时-空频域线索增强的人脸伪造检测方法,其特征在于,包括:s1:提取待检测视频的多帧图像,并截取每一帧图像的人脸区域形成多帧人脸图像;s2:利用经训练的主干网络提取所述人脸图像的特征向量,获得所述多帧人脸图像的特征图序列;s3:利用离散余弦变换将所述特征图序列映射到频域上,获得所述特征图序列对应的离散余弦变换频谱序列;s4:利用设定的权重矩阵对所述离散余弦变换频谱序列进行特征增强,获得增强后的频谱序列;s5:利用增强后的频谱序列获得每帧图像的时间频域注意力图和时间频域注意力图,并形成时空频域特征;s6:根据所述时空频域特征,利用预先训练的分类器获得待检测视频的人脸真伪。7.根据权利要求6所述的基于时-空频域线索增强的人脸伪造检测方法,其特征在于,所述离散余弦变换的表达式为:散余弦变换的表达式为:其中,m(i,j)表示主干网络提取的一帧特征图,u,v表示离散余弦变换光谱的坐标,h
′
,w
′
分别为主干网络提取的特征图的高度和宽度。8.根据权利要求7所述的基于时-空频域线索增强的人脸伪造检测方法,其特征在于,所述s4包括:
将离散余弦变换后的离散余弦变换频谱序列d(u,v)与设定的系数矩阵相乘后,得到增强后的频谱序列f={f(1),f(2)
…
f(n)},其中,f(n)表示第n帧人脸图像对应的增强后频谱,其中,f(u,v)=β
α
d(u,v),其中,β
α
表示与权重矩阵中坐标对应位置处的权重值。9.根据权利要求8所述的基于时-空频域线索增强的人脸伪造检测系统,其特征在于,所述s5包括:将每帧增强后的频谱均匀分为k块,选取每块中的块内像素点最大值作为当前块压缩后的特征值,形成每帧图像压缩后的空间特征图;根据增强后的频谱序列获得每帧图像的时间频域注意力图;将每帧图像的压缩后的空间特征图和时间频域注意力图进行合并,形成最终的时空频域特征。10.根据权利要求6至9中任一项所述的基于时-空频域线索增强的人脸伪造检测系统,其特征在于,所述方法还包括:利用训练数据集对所述主干网络和所述分类器一同进行训练,并利用交叉熵损失更新分类器和主干网络的参数,所述训练数据集包括多个视频数据集,每个视频数据集中包含当前视频标注了真伪标签的多帧图像。
技术总结本发明公开了一种基于时-空频域线索增强的人脸伪造检测系统和方法,包括:人脸图像获取模块,用于提取待检测视频的多帧人脸图像;主干网络模块,用于获得多帧人脸图像的特征图序列;频域转化模块,用于将特征图序列映射到频域上,获得离散余弦变换频谱序列;增强模块,用于利用设定的权重矩阵对离散余弦变换频谱序列进行特征增强;时空特征提取模块,用于利用增强后的频谱序列获得空间频域线索和时间频域注意力图,并形成时空频域特征;真伪判别模块,用于根据时空频域特征待检测视频的人脸真伪。本发明将频域引入到时空特征线索中并利用注意力机制捕获多帧之间的时间信息,得到的特征更加具有分辨性和鲁棒性。特征更加具有分辨性和鲁棒性。特征更加具有分辨性和鲁棒性。
技术研发人员:彭春蕾 王昱凯 刘德成 张鼎文 王楠楠 高新波
受保护的技术使用者:西安电子科技大学
技术研发日:2022.05.23
技术公布日:2022/11/1