基于多特征融合的越南语到英语的语音到文本翻译方法

专利2023-07-04  137



1.本发明涉及人工智能领域,特别涉及越南语到英语的语音到文本翻译的方法。


背景技术:

2.语音到文本的翻译旨在将源语言的语音翻译为目标语言的文本,广泛应用于演讲会 议、出国旅游、同声传译等各个领域。构建语音翻译数据集对标注者和成本要求较高,目 前仅有少数语言对有公共语料库,如英语到德语、法语等语言以及少数欧洲语言。大多数 语言对缺少语音翻译标注语料,如越南语.英语尚无公开的语音翻译数据集,研究工作相 对匮乏,迫切需要开展相关研究。
3.端到端语音翻译使用一个模型直接将源语言语音映射到目标语言文本,避免了级联方 式固有的错误累积、高延迟等缺陷,因此备受研究者关注。端到端语音翻译模型同时进行 跨模态跨语言的映射,且训练数据较稀缺,翻译性能与级联模型仍存在较大差距。此外, 语音数据受说话人情绪、音量、口音和外界噪声等因素产生多变性,限制了端到端语音翻 译模型的性能。因此,探索有效的语音表征对于语音翻译任务至关重要。
4.特征提取是语音翻译的重要步骤,特征的好坏直接影响翻译的效果。语音翻译中常使 用人工设计的fbank特征或基于自监督的wav2vec2特征作为模型输人。fbank特征的提取 过程,在一次分帧的基础上,进行逐帧变换。在采样率为16k、帧长为25m5、帧移为10 的设置下,每帧fbank%征覆盖400个采样点,能够表示语音声学信息中的局部特征,但 fbank特征提取方法根据人声预先设置,不可动态学习,具有一定的局限性。wav2vec2模 型通过堆叠的7层不同步长和卷积核大小的卷积神经网络,进行逐层循序计算提取特征。 每帧wav2vec2特征覆盖3200个音频采样点,堆叠的cnn增大了语音声学信息的覆盖范 围,有利于对语音中语义信息进行表征和学习。但由于表征在大规模无标注语音上进行自 监督预训练,表征在目标任务上的表现性能高度依训练域和目标域的相关性。单一的fbank 或wav2vec2特征作为模型的输人时,不能满足模型同时对语音中声学信息和语义信息建 模的需求。


技术实现要素:

5.本发明的目的在于提供一种基于多特征融合的基于多特征融合的越南语到英语的语 音到文本翻译方法。该方法对同一条语音数据提取多种语音特征,基于特征间的差异性, 对特征进行有效融合,促使模型学习更丰富的编码表征,缓解了语音翻译中单一的语音特 征同时对声学和语义信息建模不足的问题,提高了语音表征对于复杂语音数据的健壮性。
6.本发明技术方案:基于多特征融合的基于多特征融合的越南语到英语的语音到文本翻 译方法,所述方法的具体步骤如下:
7.step1、特征提取:针对越南语音频序列分别提取人工的滤波器组fbank频谱特征和音 高pitch特征,以及自监督特征wav2vec2;
8.step2、多特征融合的编码器构建:在步骤step1的基础上,选取不同编码方式对不同 类型的特征进行编码;针对自监督特征进行卷积编码,针对人工的频谱特征和音高特征使 用基于transformer块交替编码块进行交替编码,使用基于交叉注意力机制融合层对自监督 特征、频谱特征和音高特征的两类编码表征进行融合,获得最终编码输出表征;
9.step3、多特征融合的越南语到英语语音翻译装置的构建:在步骤step1、step2的基础 上,先进行特征提取,输入到多特征融合编码器中得到输出表征后,将编码输出表征向量 输入到transformer解码器,得到向量序列在目标词表上的概率分布,采用mbgd (mini-batch gradient descent)算法,训练语音翻译模型,构建越南语-英语语音翻译装置;
10.step4、多特征融合的越南语到英语语音翻译:在步骤step1、step2、step3的基础上, 对需要翻译的越南语语音先进行fbank、wav2vec2以及pitch三种特征的提取,将三种类 型的特征作为翻译模型的输入向量,利用翻译装置获得最终的翻译结果。
11.作为本发明的进一步方案,所述step1的具体步骤为:
12.step1.1:对采样率为16000的越南语音频序列分别提取80维的fbank特征、1维的pitch 特征和512维的wav2vec2特征;其中,fbank特征的提取设置帧移为10ms,每帧窗口大 小为25ms,使用80维的滤波器组;pitch特征使用语音信号的基频特征,搜索频率范围设 置为50hz至400hz;wav2vec2特征使用使用在100小时越南语音频上预训练的wav2vec2 模型提取512维的语音特征。
13.作为本发明的进一步方案,所述step2的具体步骤为:
14.step2.1:针对fbank特征和pitch特征,基于transformer架构,使用fbank编码块和 fbank-pitch混合编码块交替编码的方式进行编码;在一个交替周期c内,包含c-1个fbank 编码块和1个fbank-pitch混合编码块,每个编码块均对fbank特征进行编码,间隔多个块 对pitch特征进行编码,得到频谱编码表征;
15.step2.2:针对wav2vec2特征,基于cnn进行编码,得到自监督编码表征;
16.step2.3:针对step2.1和step2.2输出的频谱表征和自监督表征,使用交叉注意力机制 进行两类表征的对齐和融合,实现不同类型表征的互补和增强。
17.作为本发明的进一步方案,所述step3的具体步骤为:
18.step3.1:使用多特征融合的编码器和transformer解码器构建越南语-英语语音翻译模 型,使用越南语-英语的语音翻译数据进行训练;对越南语音频分别提取fbank特征、 wav2vec2特征和pitch特征,作为编码器输入;使用交替特征编码层对fbank和pitch两 种频谱特征进行混合编码输出频谱表征,通过加入越南语的音调信息增强模型对语义信息 的表征能力;使用wav2vec2编码层对wav2vec2特征进行编码输出自监督表征;将频谱表 征和自监督表征输人到表征融合层,通过交叉注意力机制学习表征间的对齐和融合,实现 不同类型表征间的互补,得到最终的编码器输出表征,最终,将编码器输出表征输入解码 器,输出目标语言文本词序列。
19.作为本发明的进一步方案,所述step4的具体步骤为:
20.step4.1:在进行越南语到英语的语音翻译时,先对输入的音频提取三种fbank、pitch 和wav2vec2语音特征,翻译装置将三种特征作为编码器输入,通过交叉注意力机制和交 替编码实现多特征融合,获得包含声学信和语义信息的编码端输出表征,该表征与目
标文 本词嵌入共同输入解码器进行解码,输出目标语言文本词序列的概率分布。
21.本发明的有益效果是:本发明方法对同一条语音数据提取多种语音特征,基于特征间的 差异性,对特征进行有效融合,促使模型学习更丰富的编码表征,构建越南语-英语语音翻 译装置,该装置可针对越南语语音中的声学信息和语义信息进行有效建模,实现越南语
‑ꢀ
英语的语音翻译,构建的语音翻译装置取得了较好的翻译效果。
附图说明
22.图1是本发明提出的多特征融合的语音翻译模型的编码器;
23.图2为交替特征编码层;
24.图3表征融合层中的交叉注意力机制。
具体实施方式
25.实施例1,如图1-图3所示,基于多特征融合的越南语到英语的语音到文本翻译方法, 所述方法的具体步骤如下:
26.(1)训练数据的收集与组织:
27.收集与越南语语音、越南语文本相对应的英语文本,在公开的vlsp2019语料中收集 越南语音频、越南语文本,通过调用google文本翻译服务得到越南语文本对应的英文文本。 由此,便将获得的数据表达成为一个五元组seu,即:
28.seu=(speech_vi,text_vi,text_en,duration)
29.其中speech_vi为越南语语音,text_vi为语言语文本,text_en为英文文本, duration为越南语音频长度。
30.对收集的数据集划分训练集、验证集和测试集。越南语音频数据一共包含约416小时, 划分约395.5小时为训练集,共包含300k条句子数;划分约13.1小时为开发集,共包含 10k条句子数;划分7.2小时为测试集,共包含5.5k条句子。
31.(2)对越南语音频数据进行特征提取以及数据预处理:
32.音频特征提取是语音翻译模型构建的重要基础环节,模型需要根据输入的语音特征同 时对声学信息和语义信息建模,使用单一特征同时对两类信息进行建模存在较大挑战。对 音频序列分别提取fbank特征、pitch特征以及wav2vec2三种特征,其中,fbankfi征和 pitch特征为人工特征,wav2vec2%征为自监督方法所提取的特征。输入语音信号序列 提取fbank特征序列提取pitch特征序列 提取wav2vec2特征序列特征提取过程如式(1):
[0033][0034]
fbank特征使用torchaudio包,设置帧移为10ms,帧窗口大小为25ms,提取80维的 fbank特征序列为其中为dffbank特征维度,lf为序列长度; pitch特征使用pysptk工具中的swipe算法进行提取,搜索频率范围设置为50hz至 400hz,提取的pitch征序列为其中d
p
为pitch特征维度,l
p
为 序列长度;
wav2vec2特征使用开源的w2v-vi模型3在100小时的越南语有声读物进行预 训练,使用该模型的第7层cnn输出的512维向量进行实验,特征序列为其中dw为wav2vec2特征维度,lw为序列长度。
[0035]
对于语音的fbank特征,在训练集上使用specaugment的lb策略增强语音数据,以 保证更好的泛化性和鲁棒性。其中,语音的fbank特征和pitch特征序列使用均值和方差 归一化处理。对于语音的wav2vec2特征,使用开源的w2v.vi模型提取512维的语音特 征进行实验,下文称w2v.vi特征。由于普通transrmer模型自注意层的计算复杂度为输 人长度的平方,为了对输人数据更有效的计算,实验中采用卷积神经网络对输人序列进行 下采样,通过设置不同的层数合理制输人模型的序列长度,使不同特征的序列长度基本保 持一致。所有的卷积层均使用相同配置,步长为2,卷积核大小为5,多层卷积的隐层维 度为1024。过滤了小于5帧大于3000帧的音频。
[0036]
对于目标语言文本,区分大小写同时保留标点。句子使用词表大小为的 unigramsen-tencespiece模型进行分词,采用256维的词嵌人并叠加了位置嵌人。
[0037]
(3)多特征融合的越南语到英语语音翻译编码器的构建过程:
[0038]
与以往对单一特征进行编码的语音翻译模型不同,本发明提出在编码端对fbank、 wav2vec2以及pitch三种语音特征进行编码,模型编码器由wav2vec2特征编码层、 fbank-pitch交替特征编码层和表征融合层三部分组成。其中,利用fbank-pitch交替特征 编码层显式加入pitch特征,进一步辅助编码器对语义信息的建模。多特征融合编码器如 附图1所示。
[0039]
fbank-pitch交替特征编码层:fbank特征序列f与其位置编码posf相加后与pitch特 征序列p共同作为该模块输入,得到隐层状态序列h1,下文简称频谱表征,如下式(2)。
[0040]
h1=alternatedencoder(d(f)+posf,d(p))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0041]
越南语中,音调可用于区分词义,语音中的音调信息通过音高特征(pitch)表示。在 语音特征中显式加入音调信息可增强模型对于语义信息的建模能力。不同于以往使用单一 的fbank特征作为transformer编码块输入的工作,本发明根据越南语的语音及音调特点, 以fbank特征为主,pitch特征为辅,使用两种编码块交替编码的方式进行特征编码。两种 编码块包括以fbank作为输入,基于自注意力的transformer编码块,和以fbank和pitch 作为输入,基于交叉注意力的transformer编码块,下文简称f特征编码块(f-block)和 fp混合编码块(fp-block)。交替编码的方式在不增加编码块个数和模型复杂度的基础上, 融合pitch信息进行更有效的编码。
[0042][0043]
如附图2所示,交替特征编码层共包含l个编码块,设置交替周期为c,则包含(l/c) 个交替周期。如上式(3)所示,每个交替周期内有c-1个f-block和1个fp-block,其中i 为当前编码块的块数。f-block专注对fbank特征进行编码,而fp-block采用交叉注意力 机制同时对pitch特征和fbank特征进行混合编码。f-block和fp-block均对fbank特征进 行编码,间隔多个块对pitch特征进行编码,该设计与实际发音相符,即区分词义和句义 主要通过不同音素的发音,辅以不同的音高。
[0044]
wav2vec2特征编码层:对于wav2vec2特征序列w,使用cnn作为编码器,并通过 维度转换,得到隐层状态序列h2,下文简称自监督表征,编码过程如下式(4):
[0045]
h2=wav2vec2encoder(w)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0046]
表征融合层:输入为频谱表征h1和自监督表征h2,使用交叉注意力机制进行表征间的 融合和对齐,输出融合表征向量在不增加表征长度和特征维度的情形下,通过交叉注 意力机制自动学习两种表征间的对齐,进行相互补充和增强。特征融合过程可公式化描述 为下式(5):
[0047][0048]
fbank特征根据人耳对声学信号的感知,手工设计结构来提取特征,对复杂的音频的 特征提取具有局限性;基于自监督-预训练方式得到的自监督表征缺乏对具体任务和数据的 适应性。为更好的对音频进行表征,在编码器中将带有音调信息的频谱表征和自监督表征 使用交叉注意力机制进行融合,使得特征间相互补充,满足语音翻译任务需要同时对声学 信息和语义信息建模的要求。
[0049]
将fbank-pitch交替特征编码层输出的频谱表征h1,和wav2vec2特征编码层输出的自 监督表征h2,通过多头交叉注意力机制进行特征融合。多头交叉注意力计算过程如附图3 所示,将频谱表征h1作为q,自监督表征h2作为k和v,首先通过下式(6)的线性变换分 别得到向量q,k,v,其中w
iq
,w
ik
,w
iv
均为随机初始化的参数矩阵;
[0050]
q=qw
iq
,k=kw
ik
,v=vw
iv
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0051]
然后经过下式(7)计算单头注意力得到向量序列headi,其中dm模型的隐层维度,与向 量q,k和v的维度相等;
[0052][0053]
再将各个头的向量序列经过下式(8)运算进行拼接,输出音频序列的向量表征c,其中h 为多头注意力的头数,w
io
为随机初始化的参数矩阵;
[0054]
c=multihead(q,k,v)=concat(head1,head2,

,headh)woꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0055]
最后,通过残差网络将c与h2相加后经层归一化得到最终的编码器输出表征如下式(9) 所示。
[0056][0057]
(4)多特征融合的越南语到英语语音翻译:在步骤(1)、(2)、(3)的基础上,在 编码器和解码器框架下,将fbank特征、wav2vec2特征和pitch特征作为编码器输入,通 过交叉注意力机制和交替编码实现多特征融合,获得包含声学信和语义信息的编码端输出 表征,该表征与目标文本词嵌入hy共同输入解码器进行解码,输出目标语言文本词序列的 概率分布p(y|x),如下式(10):
[0058]
p(y|x)=softmax(hy)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0059]
为了证明本发明的效果,针对提出的以上方法,在实验所采用的数据集上进行实验, 加以说明,具体包括如下:
[0060]
步骤a1:针对所选数据集的应分别提取fbank特征,pitch特征和wav2vec2特征。
[0061]
步骤a2:遵循wang的端到端语音到文本的模型设置,先在该编码器-解码器模型上, 分别使用fbank特征和w2v2-vi特征进行语音翻译和语音识别任务,对两种特征均采用2 层卷积网络进行下采样。
[0062]
表1为特征比较实验结果
[0063][0064]
实验结果如上表1,在测试集上的实验结果如表1所示,fbank特征在asr任务上的 词错率较w2v2-vi特征低0.15,在st任务上的bleu值高0.98。在资源相对充足的情况 下,使用越南语语音的fbank特征在asr任务和st任务上的性能略优于w2v2-vi特征。 fbank特征在语音翻译任务和语音识别的表现更优,这是因为fbank特征的计算过程是使 用人工设计的结构对语音信号进行降噪和时频分析的过程,能达到较好的效果。而w2v2-vi 特征取得的效果相对较差,这是因为该特征编码器预训练阶段在大规模的无标签语音数据 上进行自监督的学习,所提取的特征对于语音数据有较好的泛化性,但缺少对目标任务和 数据集的适应性。
[0065]
步骤a3:为选定最优的交替周期,选择训练集的20%,将交替特征编码器作为编码器 进行初步的语音翻译实验。交替特征编码块中有12个编码块组成,为保证两种编码块均 匀分布,交替期周期c分别在2、3、4、6中选择,其中pitch特征编码比例依次减少。实 验结果如表2所示,其中fp/f表示编码器中fp-block与f-block总个数比例。由表可知, 在交替周期为3时,编码器获得最佳翻译效果,下文实验均采用该设置。
[0066]
表2位不同交替周期c在测试集上的bleu值
[0067][0068]
步骤a4:为选择最优的特征融合方式,对常用的融合方法和不同的wav2vec2特征进 行了比较。使用w2v2-vi和xlsr-53两种wav2vec2模型提取的特征作为融合特征,分别 采用拼接融合-l、拼接融合-f和注意力融合三种融合方式进行实验,其中拼接融合-l将频 谱表征h1和自监督表征h2在长度维度进行拼接,两种特征的特征维度相同,即dw=dz,通 过在长度维度进行拼接最终编码得到的向量作为编码器输出,如下式所示:
[0069][0070]
拼接融合-f将h1和h2在特征维度进行拼接,对fbank特征和wav2vec2特征分别应用2层 和1层卷积下采样,使得二者长度维度相近在相同数量级,长度差异主要在于卷积时的填 充。在特征维度进行拼接时,选择长度最大的特征长度作为表征最终输出的长度。经拼接 后输出向量在特征维度是原始向量的两倍,再应用线形层变换为原始表征维度。在该融合 方式下最终编码得到的向量如下式所示。
[0071]
[0072]
表3融合方法比较实验结果
[0073][0074]
实验结果如表3所示。所提模型的在测试集上的bleu值一致高于表4中的两个语音 翻译的基线模型,这表明相比于单一的fbank特征或w2v2-vi特征,经两类特征融合得到 的编码表征能提高语音翻译模型的性能。从融合方法看,基于注意力融合方法的bleu值 高于拼接融合-l方法和拼接融合-f方法,通过交叉注意力机制学习两种特征之间的对齐关 系,编码输出的序列在序列长度的维度和隐层维度保持不变,解码时不增加额外的计算开 销,实验结果表明注意力融合方式是最佳的融合方法。从特征类型看,w2v2-vi特征在注 意力融合方式下和拼接融合-l方式下略优与xlsr-53的特征,分析可能原因是w2v2-vi 的预训练语料为100小时的越南语有声读物,对越南语音频特征提取有优势,而xlsr-53 的训练数据为53k小时的多语言音频,其中越南语占比较少,故对越南语音频的特征提取 可能产生干扰。而拼接融合-f方式较其他两种方式性能差距较大,其原因可能是在特征维 度进行拼接后使用线性层对特征维度进行降维,而使用单层线性层对两种拼接特征进行降 维并非最优的降维方式。
[0075]
步骤a5:为验证所提方法的有效性,分别使用fairseq s2t模型、编码器经asr预训 练的st模型以及mt和st多任务联合训练的模型作为基线模型在数据集上进行实验,下 文简称fairseq st基线,st+asr pt基线和mtl st基线。为公平比较,所有模型均不采 用额外数据进行预训练或训练。其中,mtl st基线中mt和st的损失均为nll损失, 比重分配为4:6,模型基于tranformer架构。由4.1知,在资源充足的情况下fbank特征的 翻译效果优于wav2vec2特征,故基线模型均使用fbank特征作为输入特征。
[0076]
表4特征融合实验结果
[0077][0078]
实验结果如表4所示,相比于fairseq st基线模型,st+asr pt基线采用经过asr 预训练后的编码器参数来初始化st模型的编码器,充分利用单语数据来学习语音中的声 学信息,提升了1.18个bleu值。mtl st基线通过共享解码器参数来进行文本翻译任务 和语音翻译任务的联合训练,由于训练过程不采用额外数据且联合训练的过程的损失分配 导致单个任务的性能非最优的结果,故而相比与fairseq st基线下降3.64个bleu值。所 提模
型相比于最优的st+asr pt基线提升了0.79个bleu值,相比于使用fbnak特征的 fairseq st基线提升了1.97个bleu值。使用fbank-pitch交替特征编码层和表征融合层来 融合w2v2-vi特征和pitch特征,不同特征间的差异性使其相互补充得到更丰富的编码表征, 因此翻译质量得到进一步的提升。此外所提模型相比于st+asr pt基线和mtl st基线 不需要额外对模型的部分模块进行预训练或联合训练步骤,训练效率更高。
[0079]
步骤a6:相比表4所列的三种端到端基线模型,本发明提出交替特征编码器和表征融 合层来融合额外的pitch特征和wav2vec2特征。本节对所提模型进行了消融实验,评估所 提方法中不同模块及额外特征对模型性能的贡献,表5为消融实验结果。
[0080]
表5消融实验结果
[0081][0082]
由表5可知,所提出的不同特征编码模块及融合不同特征对模型性能均能带来正向增 益,全部使用可以达到最优结果。交替融合模块按实际区分语义的成分的比重将pitch特 征和fbank特征进行有效融合,与直接采用fbank特征和pitch特征在特征维度进行拼接 的方式相比,可以带来0.59的提升。进一步去掉pitch特征,直接使用fbank的自注意编 码表征,翻译性能继续下降0.11个bleu值。这意味着,越南语的pitch特征中可能包含 能提高语音翻译效果的语义信息,证明了pitch特征对于有音调语言语音建模的必要性。 表征融合层将自监督表征和频谱表征使用交叉注意力机制进行深度融合,使得两种特征相 互补充来增强编码端输出的表征,去掉该层直接将两种表征在特征维度拼接,性能会下降 1.97。进一步去掉wav2vec2特征,即只使用交替融合模块混合fbank特征和pitch特征, 翻译性能会继续下降0.43,这表明wav2vec2特征可以对fbank特征进行补充,该补充对 提升语音翻译的性能是有益的。

技术特征:
1.基于多特征融合的基于多特征融合的越南语到英语的语音到文本翻译方法,其特征在于,所述方法的具体步骤为:step1、特征提取:针对越南语音频序列分别提取人工的滤波器组fbank频谱特征和音高pitch特征,以及自监督特征wav2vec2;step2、多特征融合的编码器构建:在步骤step1的基础上,选取不同编码方式对不同类型的特征进行编码;针对自监督特征进行卷积编码,针对人工的频谱特征和音高特征使用基于transformer块交替编码块进行交替编码,使用基于交叉注意力机制融合层对自监督特征、频谱特征和音高特征的两类编码表征进行融合,获得最终编码输出表征;step3、多特征融合的越南语到英语语音翻译装置的构建:在步骤step1、step2的基础上,先进行特征提取,输入到多特征融合编码器中得到输出表征后,将编码输出表征向量输入到transformer解码器,得到向量序列在目标词表上的概率分布,采用mbgd算法,训练语音翻译模型,构建越南语-英语语音翻译装置;step4、多特征融合的越南语到英语语音翻译:在步骤step1、step2、step3的基础上,对需要翻译的越南语语音先进行fbank、wav2vec2以及pitch三种特征的提取,将三种类型的特征作为翻译模型的输入向量,利用翻译装置获得最终的翻译结果。2.根据权利要求1所述的基于多特征融合的基于多特征融合的越南语到英语的语音到文本翻译方法,其特征在于:所述step1的具体步骤为:step1.1:对采样率为16000的越南语音频序列分别提取80维的fbank特征、1维的pitch特征和512维的wav2vec2特征;其中,fbank特征的提取设置帧移为10ms,每帧窗口大小为25ms,使用80维的滤波器组;pitch特征使用语音信号的基频特征,搜索频率范围设置为50hz至400hz;wav2vec2特征使用使用在100小时越南语音频上预训练的wav2vec2模型提取512维的语音特征。3.根据权利要求1所述的基于多特征融合的基于多特征融合的越南语到英语的语音到文本翻译方法,其特征在于:所述step2的具体步骤为:step2.1:针对fbank特征和pitch特征,基于transformer架构,使用fbank编码块和fbank-pitch混合编码块交替编码的方式进行编码;在一个交替周期c内,包含c-1个fbank编码块和1个fbank-pitch混合编码块,每个编码块均对fbank特征进行编码,间隔多个块对pitch特征进行编码,得到频谱编码表征;step2.2:针对wav2vec2特征,基于cnn进行编码,得到自监督编码表征;step2.3:针对step2.1和step2.2输出的频谱表征和自监督表征,使用交叉注意力机制进行两类表征的对齐和融合,实现不同类型表征的互补和增强。4.根据权利要求1所述的基于多特征融合的基于多特征融合的越南语到英语的语音到文本翻译方法,其特征在于:所述step3的具体步骤为:step3.1:使用多特征融合的编码器和transformer解码器构建越南语-英语语音翻译模型,使用越南语-英语的语音翻译数据进行训练;对越南语音频分别提取fbank特征、wav2vec2特征和pitch特征,作为编码器输入;使用交替特征编码层对fbank和pitch两种频谱特征进行混合编码输出频谱表征,通过加入越南语的音调信息增强模型对语义信息的表征能力;使用wav2vec2编码层对wav2vec2特征进行编码输出自监督表征;将频谱表征和自监督表征输人到表征融合层,通过交叉注意力机制学习表征间的对齐和融合,实现不同类
型表征间的互补,得到最终的编码器输出表征,最终,将编码器输出表征输入解码器,输出目标语言文本词序列。5.根据权利要求1所述的基于多特征融合的基于多特征融合的越南语到英语的语音到文本翻译方法,其特征在于:所述step4的具体步骤为:step4.1:在进行越南语到英语的语音翻译时,先对输入的音频提取三种fbank、pitch和wav2vec2语音特征,翻译装置将三种特征作为编码器输入,通过交叉注意力机制和交替编码实现多特征融合,获得包含声学信和语义信息的编码端输出表征,该表征与目标文本词嵌入共同输入解码器进行解码,输出目标语言文本词序列的概率分布。

技术总结
本发明提出基于多特征融合的越南语到英语的语音到文本翻译方法,属人工智能领域。首先针对越南语音频提取Fbank特征、Wav2vec2特征和Pitch特征三种语音特征,以Fbank特征为主、Pitch特征为辅,通过交替编码有效混合得到音调感知的频谱表征,并对Wav2vec2特征进行编码得到自监督表征。基于频谱表征和自监督表征的差异性,使用交叉注意力机制融合两类特征,构建越南语-英语语音翻译装置,该装置可针对越南语语音中的声学信息和语义信息进行有效建模,实现越南语-英语的语音翻译。实验结果表明,构建的语音翻译装置取得了较好的翻译效果,对越南语到英语的语音翻译的BLEU值达到了39.56。39.56。39.56。


技术研发人员:余正涛 马候丽 王文君 高盛祥
受保护的技术使用者:昆明理工大学
技术研发日:2022.07.14
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3678.html

最新回复(0)