安全自动说话者验证系统

专利2024-11-14 85

安全自动说话者验证系统
1.相关申请的交叉引用
2.本技术要求于2020年1月13日提交的、申请号为62/960,356的美国临时申请的权益。上述申请的全部公开内容通过引用并入本文。
3.政府条款
4.本发明是根据国家科学基金会授予的cns1816019在政府支持下完成的。该政府对本发明享有一定的权利。
技术领域
5.本公开涉及安全自动说话者验证。

背景技术：

6.自动说话者验证(automatic speaker verification，asv)是语音生物识别应用程序的基本组成部分。这些应用程序基于说话者的独特的声音特征对说话者进行身份验证，并保护用户账号免受身份盗用。然而，由于合成音频生成算法和经过数字处理的伪造音频，出现导致asv系统故障的安全漏洞，从而使得语音生物识别应用程序不可靠。类似地，智能音箱和许多依赖自动说话者验证和/或语音识别的支持语音的物联网设备也容易受到音频欺骗攻击。
7.对asv系统的音频欺骗攻击可以被分类为语音重放攻击、语音合成(或语音克隆)攻击和语音转换(voice conversion，vc)攻击。在重放攻击中，对真实目标说话者的预先录制的语音进行回放，以欺骗asv系统。重放攻击由于其很容易发起，因此构成了最大的威胁，并且发起这些攻击的唯一前提是具有说话者的预先录制的语音。此外，由于原始信号和录制信号的特征表示高度相似，因此asv系统无法辨别它们。
8.语音克隆技术收集说话者的预先录制语音样本，并旨在生成与真实语音在感知上难以辨别的语音样本。相比于语音重放攻击，通过语音克隆算法生成的语音样本甚至更难检测，其根本原因在于，克隆语音中缺少出现在后续录音中、且还用作重放的迹象的非线性分量。
9.本公开将音频欺骗攻击检测视为多层次和多类别的分类问题，而不是将该问题视为二元分类问题，在二元分类问题中，音频样本被标记为真实的或欺骗的。所提出的系统的目标是对抗重放攻击，同时识别目标说话者以及用于攻击的克隆算法。进行克隆算法检测的原因在于—本公开希望通过克隆算法检测，来找到导致asv系统在某些欺骗音频上故障的原因。此外，通过算法分析，本公开旨在对克隆算法的特性进行分析，以开发一种还可以对抗通过未见算法生成的克隆音频的安全asv系统。在这方面，本公开强调以下几点：(1)说话者特有克隆算法行为分析；(2)解决asv组件和分类器优化的缺陷以对抗未见算法；(3)解决类别不平衡问题以辨别真实音频和欺骗音频。
10.本部分提供了与本公开相关的、不一定是现有技术的背景信息。

技术实现要素：

11.本部分提供了本公开的总体概述，而不是对本公开的全部范围或本公开的所有特征的全面公开。
12.在一方面，提出了一种用于说话者验证的计算机实现的方法。该方法包括：接收来自未知说话者的音频信号；从音频信号中提取特征，其中，这些特征基于音频信号中的模式和音频信号的功率谱的表示；根据所提取的特征构造特征向量；使用特征向量对音频信号进行分类，其中，音频信号被分类为真实的、录制的或计算机生成的中的一种。
13.所提取的特征中的一个或多个特征表示从音频信号中获取的数据样本的幅度中的模式，并且可以是利用局部三值模式(local ternary pattern)来量化的。在一些实施例中，该数据样本是使用自适应阈值来量化的，其中，数据样本被分组到多个帧中，并且给定帧的自适应阈值是包括该给定帧的数据样本的幅度的标准偏差的数学函数。
14.在一实施例中，音频信号的功率谱的表示还被限定为梅尔频率倒谱系数(mel-frequency cepstrum coefficient)，并且还被限定为支持向量机(support vector machine)。
15.在一些实施例中，至少一个分类器还被限定为分类器集合，其中，该分类器集合中的第一分类器被训练为识别录制音频信号，并且第二分类器被训练为识别计算机生成音频信号。可以使用非均衡装袋(asymmetric bagging)和子空间采样(subspace sampling)来训练第一分类器和第二分类器。
16.在另一方面，来自未知说话者的音频信号是使用分类器集合进行分类的。以类似的方式，从音频信号中提取第一特征，其中，该第一特征表示从音频信号中获取的数据样本的幅度中的模式；从音频信号中提取附加特征，其中，该附加特征表示音频信号的功率谱。通过串接(concatenate)第一特征和附加特征来构造特征向量。由第一分类器对音频信号进行分类，其中，该第一分类器被训练为识别录制音频信号；由第二分类器对音频信号进行分类，其中，该第二分类器被训练为识别计算机生成音频信号；由第三分类器对音频信号进行分类，其中，该第三分类器被训练为识别真实音频信号。最后，基于来自第一分类器、第二分类器和第三分类器的输出，将音频信号标记为真实的、录制的或计算机生成的中的一种。
17.在又一方面，提出了一种用于安全说话者验证的系统。该系统包括特征提取器、音频库和一个或多个分类器。特征提取器被配置为接收来自未知说话者的音频信号。特征提取器运行以从音频信号中提取特征，并根据所提取的特征构造特征向量。所提取的特征包括第一特征和附加特征，该第一特征表示从音频信号中获取的数据样本的幅度中的模式，该附加特征表示音频信号的功率谱。
18.音频库存储来自多个注册说话者的音频样本，该音频库包括来自未知说话者的音频样本。
19.分类器与音频库连接，且被配置为接收来自特征提取器的特征向量。接着，分类器通过将特征向量与音频库中的音频样本进行比较来对音频信号进行分类，其中，音频信号被分类为真实信号、录制信号或计算机生成信号中的一种。
20.通过本文提供的描述，进一步适用的方面将变得显而易见。该概述中的描述和具体示例仅用于说明的目的，并不旨在限制本公开的范围。
附图说明
21.本文中所描述的附图仅用于所选实施例而非所有可能的实施方式的说明目的，并且不旨在限制本公开的范围。
22.图1a至图1c示出了安全自动说话者验证(secure automatic speaker verification，sasv)系统的不同布置方案。
23.图2为提供了由说话者验证子系统执行的改进的说话者验证方法的概述的流程图。
24.图3为示出了说话者验证子系统的示例架构的图。
25.图4a和图4b分别为原始话语和克隆话语的频谱分析图像。
26.图5为描绘了真实音频和克隆音频的符号修正声学局部三值模式(sign modified acoustic local ternary pattern，sm-altp)表示的图。
27.图6为示例音频帧的图。
28.图7为用于使用70-30比例进行语音克隆和语音算法检测的混淆矩阵。
29.图8为用于使用30-70比例进行语音克隆和语音算法检测的混淆矩阵。
30.贯穿这些附图的数个视图，相应的附图标记标示相应部件。
具体实施方式
31.现在将参照附图对示例实施例进行更全面地描述。
32.图1a至图1c示出了安全自动说话者验证(sasv)系统10的不同布置方案。该sasv系统10大概由传声器12、应用程序14和说话者验证子系统16组成。传声器12采集来自说话者的音频信号，并将该音频信号作为输入传送到应用程序14。在一示例中，应用程序14为在线购物应用程序。应用程序14继而与说话者验证子系统16连接。如下文将要进一步描述地，说话者验证子系统16使用由应用程序14传送的音频信号，来验证说话者的身份。然后，由说话者验证子系统16将说话者的身份传送回应用程序14。在线购物应用程序仅仅是可能需要说话者验证的应用程序的一个示例。
33.在图1a中，传声器12、应用程序14和说话者验证子系统16位于同一个计算设备上。在图1b中，传声器12位于客户端计算设备上；而应用程序14和说话者验证子系统15位于服务器计算设备上。在图1c中，传声器12和应用程序14位于客户端计算设备上；而说话者验证子系统16位于服务器计算设备上。在这两种情况下，客户端计算设备和服务器计算设备通过诸如互联网等网络互连。sasv系统10的其他布置方案也可以被本公开考虑在内。
34.图2提供了由根据本公开的说话者验证子系统16执行的改进的说话者验证方法的概述。作为起点，在21，由信号处理器接收来自未知说话者的音频信号。假设输入的音频信号来自于之前已在说话者验证子系统16中注册的说话者。
35.在22，从输入的音频信号中提取特征。在一示例实施例中，所提取的特征包括第一特征和附加特征，第一特征表示从该音频信号中获取的数据样本的幅度中的模式，附加特征表示该音频信号的功率谱。更具体地，第一特征是通过利用局部三值模式(local ternary pattern)对数据样本进行量化而构造成的。优选地，使用自适应阈值对数据样本进行量化，其中，数据样本被分组成多个帧，并且给定帧的自适应阈值是包括该给定帧的数据样本的幅度的标准偏差的函数。用于构造第一特征的方法将在下文进行更详细地描述。
在一示例中，附加特征还被限定为梅尔频率倒谱系数，尽管功率谱的其他指标也落入本公开的范围内。
36.然后，在23，根据所提取的特征构造特征向量。在示例实施例中，特征向量包括第一特征和附加特征。即，第一特征与附加特征串接以形成特征向量。
37.在24，基于该特征向量，使用至少一个分类器对该音频信号进行分类。特别地，该音频信号被分类为真实音频信号、录制音频信号或计算机生成音频信号中的一种。尽管分类器优选地由支持向量机来实现，但神经网络、决策树和其他类型的机器学习技术也被本公开考虑在内。
38.在示例实施例中，使用分类器集合将音频信号标记为真实音频信号、录制音频信号或计算机生成音频信号中的一种。在该示例中，第一分类器被训练为识别录制音频信号，第二分类器被训练为识别计算机生成音频信号，第三分类器被训练为识别真实音频信号。然后，这些分类器中的各个分类器的输出被结合，并用来标记音频信号。优选地，使用非均衡装袋和子空间采样对第一分类器、第二分类器和第三分类器进行训练。
39.此外，在25，也可以使用特征向量来识别该音频信号的说话者。在一示例中，通过将特征向量与存储在音频库中的来自注册说话者的音频样本进行比较来识别说话者。以类似的方式，也可以使用分类器来完成说话者识别。将理解的是，关于图2仅讨论了该方法的相关步骤，但是可能还需要其他软件实现指令来控制和管理说话者验证子系统的整体操作。
40.图3进一步示出了说话者验证子系统16的示例架构。在该示例实施例中，说话者验证子系统16包括音频库32、特征提取器34和分类器集合36。说话者验证子系统16还可以包括用于说话者识别和/或克隆算法检测的附加分类器37。简档生成器(profile generator)38接收来自这些分类器中的各个分类器的输出，并且生成未知说话者的简档。这些部件可以位于一个或多个信号处理器中和/或由一个或多个信号处理器实现。
41.特征提取器34在运行期间接收来自未知说话者的音频信号，从音频信号中提取特征，然后根据所提取的特征构造特征向量，例如，如下文进一步描述的。分类器集合36中的一个或多个分类器使用该特征向量对音频信号进行分类。在一示例实施例中，分类器集合36包括三个分类器，尽管更多或更少的分类器也在本公开的考虑内。
42.音频库22包括重放语音、克隆语音和真实说话者语音。在一示例中，针对每位注册说话者，通过多种语音克隆算法生成克隆语音。因此，对于m位真实说话者和p种语音克隆算法，具有(m
×
p)种克隆的说话者类别。关于对抗通过任何未见语音克隆算法(在其上未进行模型训练)而生成的克隆音频样本，模型可能会错误地预测克隆算法类型，但该模型仍然会检测到克隆攻击。在这种情况下，模型会将输入的音频标记为克隆音频。类似地，对于重放攻击检测，输入的音频样本会被标记为重放/真实音频。因此，具有q＝m+(m
×
p)+2+2种待识别的说话者类别。
43.自动说话者验证(asv)系统容易受到重放攻击、语音克隆攻击和语音转换攻击，因此，有效的音频表示机制应当考虑以下事实。第一，传声器由于互调失真而增加了非线性层，从而引入了多种可检测模式；因此，在音频指纹识别期间，音频表示机制应能够表征这些模式，以便很好地辨别原始音频和重放音频。第二，同一录音的后续录音(在音频拼接攻击中非常常见)会引入高阶非线性，并且通过基于模式的分析使得音频信号更易于辨别。第
三，语音克隆算法也引入了明显的伪影(artifacts)/失真，且需要应用邻域统计来捕获这些伪影。第四，asv系统的音频表示机制应当对声学环境中与音频处理无关的噪声较不敏感。
44.对于特征提取，提出了一种新颖的特征提取方法，该新颖的特征提取方法在本文中称为符号修正声学局部三值模式(sign modified acoustic local ternary patterns，sm-altp)。在一示例实施例中，这些特征基于音频信号中的模式(例如，局部三值模式)和音频信号的功率谱的表示。功率谱的表示可被限定为梅尔频率倒谱系数，尽管其他表示也在本公开的考虑内。sm-altp特征是altp特征的扩展，altp特征由阿德南等人于2018年在《应用声学》第140卷、第296-300页发表的“通过声学局部三值模式进行跌倒检测”(adnan et al.“fall detection through acoustic local ternary patterns”applied acoustics,vol.140,pp.296-300(2018))中进行了进一步描述，该文的全部内容被并入。
45.对于altp特征，具有n个样本的输入音频信号y[n]被划分为i＝{1；2；:::；k}个具有长度l＝9的非重叠的帧或窗口f(i)。在每一帧f(i)中，c表示一帧中的中心样本，并具有zj个相邻样本，其中，j表示f(i)帧中的相邻样本的索引。为了计算altp响应，通过在样本c周围应用参数th来计算c与zj之间的幅度谱的差值。参数th的值介于0和1之间，并且是通过执行线性搜索操作而获得的。则在f(i)中位于c周围
±
th宽度范围内的样本值被量化为零，而大于c+th的样本值被量化为1，小于c-th的样本值被量化为-1。因此，得到一个三值函数：
[0046][0047]
然后，函数p(c,zj,th)被分解为两种模式类别，即上模式p
up
(.)和下模式p
lw
(.)为：
[0048][0049]
类似地，
[0050][0051]
然后，这些上模式和下模式被用于上和下altp表示生成。使用等式4来计算上altp特征au。
[0052][0053]
而通过等式5计算下altp特征a
l
。
[0054][0055]
之后，如等式6和等式7所描述的，通过应用克罗内克(kronecker)δ函数δ(.)来计算au和a
l
的直方图。
[0056][0057][0058]
其中，b表示条柱(bin)，a表示帧索引。在计算hu(b)和h
l
(b)之后，通过联结(||)两个直方图获得altp特征为：
[0059]
ha＝[hu(b)||h
l
(b)]
ꢀꢀꢀ
(8)
[0060]
altp特征最初被提出用于室内应用(即跌倒检测)；并且由于对噪声的耐受性，该altp特征作为特征描述符针对最先进的特征提取方法表现出了非常好的性能。然而，altp应用于说话者验证系统中时，具有一些需要被克服的缺陷。这些缺陷是—(a)非静态模式检测—如图4a和图4b所示，克隆音频的频谱分析表明伪影具有非静态重复模式，该伪影可以通过动态阈值机制而被更有效地捕获。然而，altp仅仅具有静态阈值(即
±
th)，因此，altp在说话者验证应用中存在改进空间。(b)信号波动性—为了有效地捕获克隆和重放音频中的伪影，重要的是了解信号在伪影方面的变化速度。altp特征缺少这种属性。因此，针对欺骗音频的性能下降。(c)暴力(brute-force)优化—在altp中，需要暴力方法以用于阈值优化；因此，在时间紧迫应用(time critical application)中无法保证减少错误。(d)噪声均匀性—altp针对音频场景(例如室内音频)中保持一致的均匀噪声是鲁棒的；然而，在室外环境中，由于噪声不均匀，因此，基于静态阈值的特征提取变得不稳定，以致需要一不同的方法以用于噪声抑制。
[0061]
altp特征最初被提出用于声音分类，并且对于声音分类不需要采集声源的声道，因此，altp特征针对最先进的特征提取方法表现得非常地优异。然而，如在说话者验证中，需要在与文本无关的场景中辨别说话者，因此，重要的是对说话者的声道进行建模。
[0062]
sm-altp特征通过定义一动态可优化阈值并采集说话者的声道来克服altp特征的局限性。在sm-altp中，三值函数被计算为：
[0063][0064]
其中，σ是f(i)的标准偏差，α是比例因子，即(0《α《1)。σ可以被计算为：
[0065][0066]
通过使用(σ
×
α)来替换t
h l
–
1，克服了altp特征的(a)、(c)和(d)三个局限性，这需要在邻域统计方面纳入信号方差。altp特征的另一局限性是th需要通过线性搜索而进行暴力优化。然而，通过定义以下凸函数，可以对新的阈值(即(σ
×
α))进行优化。
[0067][0068]
其中，j(.)为成本函数，θ为分类权重，q＝{1,2,...,m}为训练集中记录的总数，g为所使用的分类函数(即修正线性单元(relu)，s型(sigmoid)，双曲正切(tanh)等)，yq表示音频记录的实际分类标签。成本函数的概率表示为：
[0069][0070]
然后，可以通过应用梯度下降算法来将参数σ优化为：
[0071][0072]
其中
[0073][0074]
因此
[0075][0076]
或者以简写形式，可以将其写为：
[0077][0078]
因此，偏导数将返回：
[0079][0080]
或者
[0081][0082]
通过使用(σα)来替换等式2至5，使用等式6和7得到hu(b)和h
l
(b)，并生成特征表示
为：
[0083]
h＝[hu(b)||h
l
(b)]
ꢀꢀꢀ
(19)
[0084]
特征表示h捕获存在于输入信号中的模式，但这种表示缺少可以例如通过梅尔尺度的倒谱系数而被采集的声道信息。例如，在1000赫兹(hz)处，由于归因于特定说话者的发声结构的音位表示，因此该特定说话者的倒谱系数总是显示为负，并且这种频率出现地非常频繁；在sm-altp的情况下，将会出现大的正直方图尖峰，但该尖峰不会提供与该特定频率下的发声行为相关的任何信息。因此，本公开提出了使用等式20对sm-altp表示进行进一步处理。
[0085]hs
＝h
×
sgn(μ
t
(c
γ
(t))
×
β
ꢀꢀꢀ
(20)
[0086]
其中，c
γ
(t)为第γ
th
帧的第t
th
阶倒谱系数，μt为c
γ
(t)的帧均值，且t＝{1，2，...，20}。如等
[0087]
式21所表示的，通过使用索引f计算帧能量e(f)来实施c
γ
(t)。
[0088][0089]
在等式20中参数β＝0.1被用于hs中的特征归一化。然后，sm-altp特征的最终表示可以被表示为：
[0090]hsm
＝[μ
t
(c
γ
(t))||hs]
ꢀꢀꢀ
(22)
[0091]
虽然已经参考了梅尔频率倒谱系数，但是音频信号的功率谱的其他表示也落入本公开的更广泛的方面中。
[0092]
无论特征提取方法可以多强大，数据在数据质量、数据采集机制和数据集大小等方面的特性都会影响说话者验证系统中的分类性能。例如，如果训练集由较少的真实表示和多得多的欺骗表示组成，则分类器会趋向于欺骗类别。在这种特定情况下，较高的分类准确性可能是偏向欺骗类别的结果；实际上，分类器正在为真实样本提供低得多的性能，这是任何说话者验证系统的主要目标。因此，即使较高的分类准确性也将变得毫无意义。此时，至关重要的是查明导致分类器产生错误输出的原因。为了实现这个目标，对于克隆攻击检测，识别用于生成欺骗音频的克隆算法。通过收集欺骗样本和克隆算法之间的相关性，可以进一步改进分类模型。在该示例实施例中，分类模型被设计用于以下任务：1)针对注册用户的说话者识别；2)通过已见算法和未见算法的克隆攻击的检测；3)用于克隆音频生成的算法的检测；4)目标说话者识别，以便识别具有加强安全需求的用户；5)重放和克隆重放攻击检测。在趋近高效分类模型的同时，可以以使该分类模型不适用于实时应用程序的方式，确保测试过程的复杂性不会增加。因此，对数据表示平衡的任务(即任务1、3和4)通过单个具有多项式核的svm分类器来处理；而对于数据集高度不平衡的任务(即任务2和5)，多个分类器通过非均衡装袋和子空间采样而被训练。
[0093]
为了生成多个分类器，在所提出的svas系统10中使用了非均衡装袋和子空间采样。在非均衡装袋中，自举法(boosting)是在欺骗类别样本上执行的，因为与真实样本相比欺骗样本要多得多。这样，每个分类器都在使用完整真实集和欺骗样本子集的平衡集上进行训练，从而改善不稳定的svm分类性能。稳定的svm分类器变得能够很好地辨别甚至是未见的真实和欺骗样本；然而，如果使用其他数据平衡方法(例如，上采样或下采样)而不是使
用非均衡装袋，则该分类器会变得要么过拟合要么欠拟合，并且对于未见的样本表现出非常低的性能。在非均衡装袋之后，执行多个分类器的聚合，例如在开发集上通过加权归一化投票规则(weighted normalized voting rule，wnvr)执行多个分类器的聚合。用于对多个分类器的输出进行聚合的其他技术也在本公开的考虑之内。
[0094]
在训练多个分类器之后，对分类器的结果进行综合。在该示例实施例中，应用加权归一化投票规则(wnvr)来聚合所有分类器的结果，尽管包括多数投票规则(majority voting rule，mvr)的其他聚合规则在本公开的考虑之内。wnvr是为集合生成而提出的一个新概念。选择wnvr而不是mvr的原因在于mvr无法利用精确的分类器的优势，并且对所有分类器给予相同的权重。
[0095]
假设w＝{1,2,...,q}集合分类器是通过应用加权交叉熵函数(weighted cross-entropy function)而生成的：
[0096][0097]
其中，λ为权重，以便对于k＝{1,2,...,k}个待分类的类别，利用更精确的分类器的优势，b＝{1,2,...,m}为开发集中实例xb的序数。则最终的类别标签c*(x)被生成为：
[0098][0099]
参数s是控制偏差/方差效应的归一化因子。
[0100]
在训练和模型优化后，所训练的模型可用于评估。评估集由具有已见真实说话者和未见真实说话者的实例组成，且在语音克隆攻击的情况下，评估集由具有已见真实说话者和未见真实说话者的实例、以及通过已见算法和未见算法生成的样本的实例组成。在模型评估后，可以向最终模型传送任何疑问音频样本，并且该最终模型可以在实时场景中执行说话者验证任务。
[0101]
现有的方法在特征提取期间忽略了一些重要的信号特性，这最终降低了这些方法的性能。例如，前三个局限性强调在重放和语音克隆期间，互调和算法伪影出现，这表现出可辨别的模式。所提出的方法由于对输入信号进行模式分析，而因此有效地捕获这些伪影以区分欺骗信号和真实信号。例如，如图5所示，真实音频和克隆音频在相同的特征点处表现出尖峰，但由于这些尖峰的差异，这些信号仍然是容易辨别的。此外，在某些特征点处(例如图5中的特征16处)，真实信号和欺骗信号表现出相反方向上的尖峰。图4中的特征值差异表明，克隆音频尽管表现得与真实音频相似，但基本信号分量(即音高、音量等)依然没有被完美地复制。然而，通过所提出的方法对输入信号进行较低等级的分析，容易揭示这种差异。
[0102]
音频表示方法的另一个局限性是，它们对噪声的鲁棒性不容易被量化。然而，所提出的方法对噪声具有鲁棒性，并且可以很容易地验证这种主张。例如，对图6中示出的音频帧进行讨论。可以看出加性噪声(该加性噪声要么可以提高要么可以降低f(i)帧中的中心样本c的值，并且可以成为针对c生成错误码的原因)将变得无效。原因是，样本c的值现在位于上限阈值和下限阈值之间的范围内，因此变得对噪声加性值更耐受。此外，由于特征不太复
杂，因此快速模型再训练是可能的；从而使得所提出的方法对于具有连续不断的用户注册的需求的应用程序而言是有效的。
[0103]
在asv欺骗-2019(asvspoof-2019)数据集和语音欺骗检测语料库(voice spoofing detection corpus，vsdc)上评估了所提出系统的性能。asv欺骗-2019数据集(表ⅰ)还包括两个数据集，即用于语音克隆攻击检测的逻辑访问(logical access，la)数据集和用于重放攻击检测的物理访问(physical-access，pa)数据集。la数据集具有25380个用于训练的样本、24844个用于开发的样本和71933个用于评估的样本。训练集和开发集包含20位说话者(在两个数据集中均是不同说话者)的用作真实类别的语音样本；而欺骗集具有通过2种语音转换算法和4种语音合成算法生成的相同说话者话语的克隆样本，这些克隆样本由120(20
×
6)种欺骗的说话者-加-算法类别组成。语音转换算法基于(i)基于神经网络的方法，以及(ii)基于传递函数的方法。而语音合成算法是以下方法的实现：(i)波形拼联，(ii)使用源滤波器声码器的、基于神经网络的参数语音合成，以及(iii)使用波网(wavenet)的、基于神经网络的参数语音合成。评估集包括收集的来自多个说话者的未见真实语音样本和未见欺骗语音样本。而欺骗集包括通过19种算法生成的样本，这19种算法包括基于生成对抗网络(gan)的方法和基于深度神经网络的方法。pa数据集由54000个训练样本、33534个开发样本和153522个评估样本组成(表ⅰ)。
[0104]
vsdc是为重放和克隆重放攻击检测设计的。克隆重放表示对克隆语音样本的录制；为此，使用asv欺骗克隆样本以与真实语音录制类似的方式生成重放样本。数据集中的样本在环境、配置、说话者类型、录制、重放设备和说话者数量方面不同(表ⅱ)。更具体地，样本也包含噪声和干扰。为了生成重放音频，使用不同的重放设备来减轻特定重放设备的影响。vsdc包括自愿为数据收集提供服务的十位男性和五位女性说话者的语音样本。
[0105]
接下来，针对真实说话者验证，对所提出的方法的性能进行了评估。真实说话者验证是任何asv系统执行的主要任务。如表ⅲ所示，所提出的方法在asv欺骗-2019数据集上使用70-30(即70％的数据用于训练和30％的数据用于测试)比例实现了平均99％的精确率(precision)、召回率、f1分数和准确率值。对于大多数类别来说，评估率为100％；而没有类别可能具有超过1个被错误分类的样本；在对应于20个说话者类别的774个测试样本中，只有7个被错误分类的样本，这是可以忽略不计的。此外，即使将训练和测试比例更改为30-70(即30％的数据用于训练和70％的数据用于测试)，所提出的方法在2580个总的真实样本中使用1806个用于测试的样本，仍然给出了98％的平均精确率、召回率、f1分数和准确率值，这清楚地表明该方法对于asv任务是鲁棒的。
[0106]
在该实验中，针对合成音频生成算法检测，对所提出的方法的性能进行了评估。合成音频生成算法包括如上所述的语音转换算法和语音合成算法。从表ⅳ中展示的结果可以看出，所提出的方法在所有的性能评估程度方面都大约给出了100％的性能。如果比较图7和图8所展示的混淆矩阵可以看出，即使将测试样本从6803个增加到15874个，所提出的方法的算法检测性能仍然保持不变。因此，这些结果证实了如下假设：这些算法在所生成的克隆音频中引入了它们特有的属性/伪影，这些属性/伪影通常与其他音频生成算法引入的不同；具有有效分类机制的良好音频表示可以利用这些伪影来执行算法级检测；因此，攻击检测简档变得更加可靠。该特征可以通过激发更高的可信度而特别有利于音频取证应用程序，特别是在诉讼案件中的音频取证应用程序。
[0107]
为了保护注册用户和基于asv的应用程序，重要的是识别哪些注册用户的语音已被盗用。有了这些信息，可以采取额外的安全措施来进一步保护这些特定的说话者、以及应用程序。因此，在该实验中，算法和说话者信息被组合到一起，然后被用作如表
ⅴ
所示的训练和测试标签。以这种方式，针对20位注册说话者，使用6种音频合成算法，具有120个音频类别。在表
ⅴ
中，展示了随机选择的30个类别的结果；从这些结果中可以看出，所提出的方法给出了97％的准确率，并且所有性能评估程度的平均值也为97％。表ⅵ和表
ⅴ
的准确率值之间的差异约为2.6％，这归因于样本与特定输出标签部分关联的概率。例如，对真实说话者错误分类的样本仍然可以与正确的语音克隆算法相关联。此外，如在算法检测(表ⅵ)的情况下，由于只有6个类别，因此在这种情况下误差界限更低。然而，如果一种方法甚至通过应用下钻操作(drill down operation)来进一步使分类问题多样化而仍然给出了较高的性能，那么这种方法将被认为是可靠的。因此，基于这些结果可以说，所提出的方法为我们可靠地提供了关于被盗用说话者的信息，这也是所提出的方法的独特属性。
[0108]
对于该实验，选择了76236个未见实例用于评估目的。在这些实例中，9902个实例是真实实例，66334个实例是克隆实例。然而，这76236个实例由来自asv欺骗-2019开发集的5000个实例和来自评估集的71236个实例组成，这些实例从未用于训练。所有这些实例都具有未见说话者(20位说话者来自开发集，67位说话者来自评估集)，并且19种不同的语音克隆算法和语音转换算法(包括表ⅳ中所提到的6种算法和剩余的在表ⅶ中的13种算法)被用于这87位说话者的克隆音频生成。由于被用于音频合成的算法从未用于所提出方法的训练，因此该方法无法预测算法标签。因此，对于该实验，该模型是使用具有两个标签(即真实的和克隆的)的训练集而被训练的。因此，该实验的目的是评估所提出的方法是否能够辨别任何真实/克隆音频，无论说话者是谁或无论是如何进行克隆的。
[0109]
从表ⅵ中展示的结果可以看出，所提出的方法给出了88％的总的准确率。通过对该准确率值进一步应用下钻操作，可以发现真实类别的准确率为86％，而克隆类别的平均准确率为90％；因此，总的准确率变为88％。在这87位说话者中，对于72位说话者平均准确率保持在90％以上，这公平地考虑到只有20位说话者用于训练目的，且这20位说话者在该实验中不被考虑用于评估目的。类似地，如表ⅶ所示，如果分析未被用于训练的这13种算法，可以看出，8种算法的准确率接近100％；而2种算法的准确率超过90％。最有问题的算法是a17至a19，其准确率显著下降。然而，从表ⅶ中可以看出，所有这些算法类别中的样本数量都是最少的。给出最低准确率的a17仅大约是a09的27％(在样本量方面)，a09具有100％的最高准确率且还包含最多数量的样本。因此，基于此可以推断出，模型优化与样本数量呈正相关；虽然没有使用外部算法标签，但我们的模型仍然识别出了由任何合成算法引入的特有类型的伪影之间的相关性；并且该模型对大多数样本返回了正确的输出。
[0110]
对于一个好的算法，较高的准确率值是在类别相关的场景中、在包括在精确率、召回率和f1分数方面的算法性能的许多需求中的一种。进行类别相关分析的原因是，在不平衡的数据的情况下，如果分类器甚至忽略了次要类别，该分类器仍然将会给出较高的总的准确率和其他性能评估程度。然而，由于该次要类别通常是必须被考虑的兴趣类别，因此如此高的评估值是不可接受的。例如，对于该实验，训练集中的真实类别只有大约13％的样本；如果我们的算法将每个样本都标记为克隆的，那么总的准确率仍然为87％。然而，因为真实说话者验证(特别是对于注册用户)是任何asv系统执行的基本活动，因此这种准确率
被认为是无用的。并且，在现实世界的场景中，未能验证真实说话者将导致注册用户受挫，并且会导致提供asv服务的公司遭受经济损失。然而，通过观察表ⅵ中展示的结果可以分析得到，所提出方法对于真实类别给出了67％的精确率，并且对于克隆类别给出了97％的精确率。由于精确率程度还考虑了误报率，因此，对于高度不平衡的数据(例如，在两个类别存在的比例为13：87的情况下)，真实类别的精确率会下降；而在克隆类别中的误报则较少，因此，这些高度不平衡的数据不会对克隆类别的精确率产生非常大的不利影响。然而，在召回的情况下，由于我们针对一类别的所有相关实例，只考虑了该特别类别中被正确分类的实例；因此，在真实类别的情况下，召回率为91％，该召回率比精确率高出约24％。类似地，对于克隆类别，召回率下降了6％且变为91％。因此，所提出的方法在真实类别的召回率方面提供了良好的性能；而该方法在克隆类别的精确率方面提供了良好的性能。通过f1分数将精确率和召回率进行结合，对于真实类别和克隆类别，分别获得了81％和94％的f1分数。f1分数的差异表明该模型需要增强训练集以更好地对未见的真实实例进行分类。然而，在现实世界的场景中，由于需要所提出的sasv系统仅将注册的真实说话者(在其上该模型被训练)正确地分类为真实的(如表ⅲ所示)，因此，通过对未注册的用户(尽管其是真实的说话者)进行错误分类从安全的角度上来看是一件好事。
[0111]
在重放攻击中，任何真实说话者的预先录制的语音都会在asv系统前回放。由于语音样本属于真实说话者，因此，在语音合成期间出现的伪影在重放样本中会丢失；因此，音频指纹与真实说话者完全匹配，假冒出现。然而，对重放样本的更深入的分析表明，录制语音还包含可用作重放攻击检测的迹象的非线性分量。为了检测重放攻击，首先详细说明重放样本由什么组成：1)重放和克隆重放模式、以及2)重放和克隆重放攻击检测。
[0112]
为了实施重放攻击，涉及到传声器链(即一个传声器用于录制说话者语音，由asv系统提供的下一个传声器用于系统交互)。然而，在声能转换为电信号期间，传声器中存在的机电部件(例如碳纤维，电路系统等)会在输入信号中引入非线性；这些组分中的任何非线性都会导致输出略微失真。一般来说，机械悬架的刚度和声学阻尼是大多数传声器中非线性失真的主要原因，该非线性失真可以被分类为谐波失真、互调失真和差频失真。谐波失真是对纯音激励的非线性的影响，导致输出中的谐波分量。互调失真是作为较强的高频分量和较弱的低频分量之和的激励在输出端处产生的非线性的影响。差频失真是由幅度相同的正弦波的激励在输出端处产生的非线性的影响。考虑到说话者也表现为非线性方式，一阶语音重放攻击可以被建模为传声器-说话者-传声器(microphone-speaker-microphone，msm)的处理链，该msm的处理链等效为级联的三个二阶系统。因此，表示一阶重放攻击的处理链由于msm处理链的级联，预计会引入更高阶的非线性。因此，可以使用高阶谐波失真来区分真实音频和欺骗音频。然而，在克隆重放(在vsdc中引入)的情况下，语音克隆伪影还包含非线性分量，因此具有与msm的更深层链相似的行为。此外，通过有效音频表示机制同时捕获非线性分量和克隆伪影，可以检测到克隆重放。克隆重放的实施可以在文本相关的场景中找到，在该场景中，伪造者具有真实说话者的语音样本，但这些样本与在asv系统上发起攻击的样本不同。因此，可以说克隆重放攻击检测是安全asv系统的基本要求。
[0113]
在该实验中，针对重放、克隆重放攻击检测，在vsdc和asv欺骗-2019数据集上对所提出的方法的性能进行了评估。从表
ⅷ
中所展示的结果可以看出，所提出的方法在用于音频重放攻击检测的两个数据集上都取得了显著的性能。更具体地，在vsdc和asv欺骗数据集
上分别获得了98.3％和99％的平均精确率、98.5％和99％的平均召回率以及98.4％和99％的平均f1分数。从结果中可以看出，所提出的方法在asv欺骗数据集上的性能略优于在vsdc上的性能，这是由于与asv欺骗数据集相比，vsdc的样本是在更具挑战性和多样化的条件下生成的这一事实。在vsdc中，与一阶重放攻击(其证实了克隆信号在重放后与正常样本相比变得更加失真的结论)相比，所提出的方法对于克隆重放攻击检测获得了更好的性能；因此，克隆信号也变得更加可辨别。
[0114]
本公开提出了一种安全自动说话者验证(sasv)系统，该系统可以识别注册的asv用户，并且还可以对抗音频合成攻击、语音回放攻击和音频注入攻击。音频合成检测模块将原始语音与算法生成的合成音频区分开来，并且还提供关于之前被用于克隆音频生成的算法的信息。重放检测模块对抗语音重放和克隆语音重放攻击。而音频注入检测模块对抗通信通道被危及且黑客试图通过跳过asv步骤来渗入系统的场景。所提出的框架基于新颖的sm-altp特征和通过非均衡装袋进行学习的集合。通过非均衡装袋，克服了类别不平衡的问题，并且生成了svm分类器的动态范围。在asv欺骗-2019和vsdc数据集上的评估表明，该方法有效地捕获了欺骗模式(甚至这些欺骗模式是通过未见算法生成的)，从而为asv系统提供了全面的安全解决方案。
[0115]
本文所描述的技术可以通过由一个或多个处理器执行的一个或多个计算机程序来实现。这些计算机程序包括存储在非暂态(non-transitory)有形计算机可读介质上的处理器可执行指令。这些计算机程序也可以包括存储的数据。非暂态有形计算机可读介质的非限制性示例是非易失性存储器、磁存储器和光存储器。
[0116]
以上描述的某些部分呈现了本文所描述的、在信息操作的算法和符号表示方面的技术。这些算法描述和表示是数据处理领域的技术人员所使用的、将其工作的实质最有效地传达给本领域的其他技术人员的手段。这些操作虽然是在功能上或逻辑上被描述的，但应被理解为可由计算机程序来实现。此外，在不失一般性的情况下，有时将这些操作设置称为模块或由功能名称称呼这些操作设置也被证明是有利的。
[0117]
除非另有明确说明，否则如从以上讨论中显而易见的，应认识到，在整个描述中，使用诸如“处理”或“计算(computing)”或“计算(calculating)”或“确定”或“显示”等术语的讨论是指计算机系统或类似电子计算设备的动作和过程，该计算机系统或类似电子计算设备对在计算机系统存储器或寄存器或其他这种信息存储、传输或显示设备中表示为物理(电子)量的数据进行操作和转换。
[0118]
所描述技术的某些方面包括本文中以算法形式描述的处理步骤和指令。应当注意的是，所描述的处理步骤和指令可以在软件、固件或硬件中体现，并且当在软件中体现时，可以将其下载以驻留在由实时网络操作系统使用的不同平台上，并在这些不同平台对其进行操作。
[0119]
本公开还涉及一种用于执行本文中的操作的装置。该装置可以被特别构造用于所需目的，或者该装置可以包括通用计算机，该通用计算机由存储在计算机可读介质上的、可被计算机访问的计算机程序选择性地激活或重新配置。这样的计算机程序可以存储在有形计算机可读存储介质中，例如但不限于以下任何类型的磁盘，该任何类型的磁盘包括软盘、光盘、只读光盘储存器(cd-rom)、磁光盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、可擦除可编程只读存储器(eprom)、带电可擦除可编
程只读存储器(eeprom)、磁卡或光卡、专用集成电路(application specific integrated circuit，asic)、或适用于存储电子指令的任何类型的介质，并且每个介质都耦接到计算机系统总线。此外，本说明书中涉及的计算机可以包括单个处理器或者可以是采用用于增加计算能力的多个处理器设计的架构。
[0120]
本文所提出的算法和操作与任何特定的计算机或其他设备没有内在联系。各种通用系统也可以根据本文的教导与程序一起使用，或者构造多个专门的设备来执行所需的方法步骤可能被证明是方便的。对于本领域的技术人员来说，各种这些系统所需的结构连同等效的变化将是显而易见的。此外，本公开未参考任何特定的编程语言而被描述。应当认识到的是，可以使用多种编程语言来实现如本文所述的、本公开的教导。
[0121]
这些实施例的以上描述已被提供以为了说明和描述。该描述不旨在是详尽的或限制本公开。特定实施例的各个元素或特征通常不限于该特定实施例，而是在适用的情况下这些元素或这些特征是可以互换的，且可以用于选定的实施例中，即使没有具体示出或描述。同样的情况也可以在许多方面有所变化。这些变化不应被视为脱离本公开，且所有的这些修改均旨在包含在本公开的范围内。
[0122]
附录
[0123]
表1
[0124][0125]
表2表ⅱ：语音欺骗检测语料库(vsdc)的详细信息
[0126][0127]
表3
[0128]
说话者id精确率召回率f1分数la_0079_bon1.001.001.00la_0080_bon0.970.940.96la_0081_bon0.950.970.96la_0082_bon1.001.001.00la_0083_bon1.001.001.00
la_0084_bon1.001.001.00la_0085_bon0.980.980.98la_0086_bon0.951.000.97la_0087_bon1.000.980.99la_0088_bon1.000.970.99la_0089_bon1.000.970.99la_0090_bon1.001.001.00la_0091_bon1.001.001.00la_0092_bon1.000.980.99la_0093_bon1.000.970.98la_0094_bon1.001.001.00la_0095_bon0.951.000.98la_0096_bon1.001.001.00la_0097_bon1.000.980.99la_0098_bon0.951.000.97准确率
ꢀꢀ
0.99
[0129]
表4
[0130]
算法id算法精确率召回率f1分数a01神经波形模型0.9980.9960.997a02源滤波器声码器-10.9960.9990.997a03源滤波器声码器-20.9941.0000.997a04波形拼联0.9900.9870.989a05源滤波器声码器-30.9970.9950.996a06光谱滤波0.9980.9970.997准确率
ꢀꢀꢀ
0.996
[0131]
表5
[0132]
算法+说话者id精确率召回率f1分数a01_la_0079_spoof0.991.000.99a01_la_0081_spoof0.980.980.98a02_la_0086_spoof0.981.000.99a02_la_0088_spoof0.981.000.99a03_la_0091_spoof0.981.000.99a03_la_0092_spoof1.001.001.00a04_la_0095_spoof1.001.001.00a04_la_0097_spoof1.000.980.99a05_la_0079_spoof1.001.001.00a05_la_0081_spoof1.001.001.00a06_la_0094_spoof0.940.940.94a06_la_0095_spoof0.960.910.94
120个类别的准确率
ꢀꢀ
0.97
[0133]
表6
[0134][0135]
表7
[0136]
算法id算法样本数量准确率a07声码器+对抗神经网络(gan)48230.98a08神经波形48550.99a09源滤波器声码器-448931.00a10神经波形48780.99a11griffin lim48820.99a12神经波形46030.94a13波形拼联+波形滤波49081.00a14源滤波器声码器-549041.00a15神经波形47470.97a16波形拼联44420.90a17波形滤波13520.28a18源滤波器声码器-618550.38a19光谱滤波23450.48
[0137]
表8
[0138][0139]
表9
[0140][0141]
表10
[0142]

技术特征：
1.一种用于说话者验证的计算机实现的方法，包括：由信号处理器接收来自未知说话者的音频信号；由所述信号处理器从所述音频信号中提取特征，其中，所述特征基于所述音频信号中的模式和所述音频信号的所述功率谱的表示；由所述信号处理器根据所提取的所述特征，构造特征向量；以及由至少一个分类器使用所述特征向量对所述音频信号进行分类，其中，所述音频信号被分类为真实的、录制的或计算机生成的中的一种。2.根据权利要求1所述的计算机实现的方法，其中，所提取的所述特征中的一个或多个特征表示从所述音频信号中获取的数据样本的幅度中的模式。3.根据权利要求2所述的计算机实现的方法，其中，数据样本的幅度是利用局部三值模式来量化的。4.根据权利要求3所述的计算机实现的方法，其中，所述数据样本是使用自适应阈值来量化的，其中，数据样本被分组到多个帧中，并且用于给定帧的所述自适应阈值是，包括所述给定帧的数据样本的幅度的标准偏差的数学函数。5.根据权利要求1所述的计算机实现的方法，其中，所述音频信号的所述功率谱的所述表示还被限定为梅尔频率倒谱系数。6.根据权利要求1所述的计算机实现的方法，其中，所述至少一个分类器还被限定为支持向量机。7.根据权利要求1所述的计算机实现的方法，其中，所述至少一个分类器还被限定为分类器集合，其中，所述分类器集合中的第一分类器被训练为识别录制音频信号，且第二分类器被训练为识别计算机生成音频信号。8.根据权利要求5所述的计算机实现的方法，还包括：使用非均衡装袋和子空间采样来训练所述第一分类器和所述第二分类器。9.根据权利要求1所述的计算机实现的方法，还包括：使用所述特征向量来识别所述未知说话者。10.一种用于说话者验证的计算机实现的方法，包括：由信号处理器接收来自未知说话者的音频信号；由所述信号处理器从所述音频信号中提取第一特征，其中，所述第一特征表示从所述音频信号中获取的数据样本的幅度中的模式；由所述信号处理器从所述音频信号中提取附加特征，其中，所述附加特征表示所述音频信号的所述功率谱；由所述信号处理器通过串接所述第一特征和所述附加特征，来构造特征向量；由第一分类器使用所述特征向量对所述音频信号进行分类，其中，所述第一分类器被训练为识别录制音频信号；由第二分类器使用所述特征向量对所述音频信号进行分类，其中，所述第二分类器被训练为识别计算机生成音频信号；由第三分类器使用所述特征向量对所述音频信号进行分类，其中，所述第三分类器被训练为识别真实音频信号；以及基于来自所述第一分类器、所述第二分类器和所述第三分类器的输出，将所述音频信
号标记为真实的、录制或计算机生成的中的一种。11.根据权利要求10所述的计算机实现的方法，其中，所述第一特征是通过利用局部三值模式、使用自适应阈值对所述数据样本进行量化来提取的，使得所述数据样本被分组到多个帧中，且给定帧的所述自适应阈值是包括所述给定帧的数据样本的幅度的标准偏差的数学函数。12.根据权利要求10所述的计算机实现的方法，其中，所述附加特征还被限定为梅尔频率倒谱系数。13.根据权利要求10所述的计算机实现的方法，其中，所述第一分类器、所述第二分类器或所述第三分类器中的至少一个还被限定为支持向量机。14.根据权利要求13所述的计算机实现的方法，还包括使用非均衡装袋和子空间采样对所述第一分类器、所述第二分类器或所述第三分类器中的至少一个进行训练。15.一种用于安全说话者验证的系统，包括：特征提取器，所述特征提取器被配置为接收来自未知说话者的音频信号，所述特征提取器运行以从所述音频信号中提取特征，并根据所提取的所述特征构造特征向量，其中，所提取的所述特征包括第一特征和附加特征，所述第一特征表示从所述音频信号中获取的数据样本的幅度中的模式，所述附加特征表示所述音频信号的所述功率谱；音频库，所述音频库存储来自多个注册说话者的音频样本，所述音频库包括来自所述未知说话者的音频样本；和分类器，所述分类器与所述音频库连接，且被配置为接收来自所述特征提取器的所述特征向量，其中，所述分类器通过将所述特征向量与所述音频库中的所述音频样本进行比较，来对所述音频信号进行分类，其中，所述音频信号被分类为真实信号、录制信号或计算机生成信号中的一种。16.根据权利要求15所述的系统，其中，所述第一特征是通过利用局部三值模式、使用自适应阈值对所述数据样本进行量化来提取的，使得所述数据样本被分组在多个帧中，并且给定帧的所述自适应阈值是包括所述给定帧的数据样本的幅度的标准偏差的数学函数。17.根据权利要求15所述的系统，其中，所述附加特征还被定义为梅尔频率倒谱系数。18.根据权利要求15所述的系统，还包括：第一分类器，所述第一分类器被配置为接收来自所述特征提取器的所述特征向量，且使用所述特征向量对所述音频信号进行分类，其中，所述第一分类器被训练为识别录制音频信号；第二分类器，所述第二分类器被配置为接收来自所述特征提取器的所述特征向量，且使用所述特征向量对所述音频信号进行分类，其中，所述第二分类器被训练为识别计算机生成音频信号；以及第三分类器，所述第三分类器被配置为接收来自所述特征提取器的所述特征向量，且使用所述特征向量对所述音频信号进行分类，其中，所述第三分类器被训练为识别真实音频信号。19.根据权利要求18所述的系统，还包括简档生成器，所述简档生成器被配置为接收来自所述第一分类器、所述第二分类器和所述第三分类器的输出；并且基于来自所述第一分类器、所述第二分类器和所述第三分类器的输出，将所述音频信号标记为真实的、录制或计
算机生成的中的一种。

技术总结
传统的说话者验证系统容易受到语音欺骗攻击，例如语音重放攻击、语音克隆攻击和克隆重放攻击。为了克服这些缺陷，提出了一种基于新颖的符号修正声学局部三值模式sm-ALTP特征和具有增强攻击向量机的基于非均衡装袋的分类器集合的安全自动说话者验证系统。所提出的音频表示方法通过将音频帧中的高频和低频分量正态分布在凸函数上，来对这些分量进行聚类。之后，应用邻域统计数据来采集用户特有的声道信息。声道信息。声道信息。

技术研发人员：哈菲兹
受保护的技术使用者：密歇根大学董事会
技术研发日：2021.01.12
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-10296.html

专利

最新回复(0)