一种视频机器配音的方法、装置、设备及可读介质与流程

专利2023-06-28 137

1.本发明是属于计算机技术领域，特别是关于一种视频机器配音的方法、装置、设备及可读介质。

背景技术：

2.目前市面上对视频内容进行外语配音，大多采用纯人工的方式进行。翻译人员首先将文字翻译为外文配音稿，再交给配音导演、配音师进行配音。在这期间需要多次根据配音导演和配音师的要求进行改稿，来保证配音流畅的情况下声音与画面的准确匹配。纯人工配音的方式制作周期很长，需要翻译、配音师、录音师、混音师等几个工种配合，还需要专业设备支持，成本也非常高，无法满足快速发展的短视频行业的需求。
3.现有的根据文字自动完成配音的软件系统停留在tts语音合成的初级阶段，无法解决多段文字转为语音后插入到视频中插入位置确定的问题。一般方法包括将语音内容转换成数字文本，再将数字文本翻译成另一种语言，最后将所翻译的文本合成到语音输出。然而，该方法无法解决语音转文字，文字翻译后的错误和不准确的问题；且翻译完的文本长度无法控制，当翻译后的文字长度远超过源语言文字后合成的语音会与下一句话重叠。
4.公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现要素：

5.本发明的目的在于提供一种视频机器配音的方法、装置、设备及可读介质，其能够极大地节省配音时间与成本，提高机器配音的流畅度。
6.基于上述目的，本发明实施例的一方面提供了一种视频机器配音的方法，包括以下步骤：从字幕文件中逐个读取每条字幕，分别对每条所述字幕进行tts合成以得到对应的音频；计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长，并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕；若是所述字幕为音频重叠字幕，则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长，并基于所述配音语速对所述音频重叠字幕重新进行tts合成以更新对应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频；以及依次读取每条字幕对应的音频，并将所述音频插入到对应的视频节点中。
7.在一些实施方式中，方法还包括：通过循环神经网络将每条双语字幕的原文字幕和译文字幕转换为音素，基于所述原文字幕的音素数目和所述译文字幕的音素数目计算所述译文字幕的预估重叠率，并判断所述预估重叠率是否超过第一预设重叠率；若是所述预估重叠率超过第一预设重叠率，则对所述译文字幕进行重译；若是所述预估重叠率不超过第一预设重叠率，则将所述译文字幕记录到字幕文件中。
8.在一些实施方式中，通过循环神经网络将每条双语字幕的原文字幕和译文字幕转
换为音素包括：判断原文字幕/译文字幕是否为表意文字；若是原文字幕/译文字幕为表意文字，则将所述原文字幕/所述译文字幕转换为音标字母，再将所述音标字母转换为音素；基于所述原文字幕的音素数目和所述译文字幕的音素数目计算所述译文字幕的预估重叠率包括：读取并计算所述原文字幕结束时间与开始时间的差值，作为字幕时长，并计算所述原文字幕的音素数目与所述字幕时长的比值，作为语速，并计算所述译文字幕的音素数目与所述语速的乘积，作为预估译文字幕配音时长；读取并计算下一原文字幕的开始时间与本条原文字幕结束时间的差值，作为字幕间隙，并计算所述字幕时长与字幕间隙的和，作为配音时长阈值，并计算所述预估译文字幕配音时长与所述配音时长阈值的比值，作为所述译文字幕的预估重叠率；其中，所述第一预设重叠率为130％。
9.在一些实施方式中，计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长，并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕包括：依次读取并计算每条所述字幕的结束时间与开始时间的差值，作为字幕时长；读取并计算下一条字幕的开始时间与本条字幕结束时间的差值，作为字幕间隙；读取所述字幕对应的所述音频的配音时长，并判断所述字幕对应的配音时长是否大于所述字幕时长和所述字幕间隙的和；若是所述字幕对应的配音时长大于所述字幕时长和所述字幕间隙的和，则确认所述字幕为音频重叠字幕。
10.在一些实施方式中，若是所述字幕为音频重叠字幕，则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长包括：若是所述字幕为音频重叠字幕，则基于所述音频重叠字幕预设范围内其他字幕的字幕间隙对所述音频重叠字幕进行调整，并重新计算调整后的所述音频重叠字幕的字幕时长和字幕间隙以重新判断调整后的所述音频重叠字幕是否仍为音频重叠字幕；若是调整后的所述音频重叠字幕仍为音频重叠字幕，则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长。
11.在一些实施方式中，基于所述音频重叠字幕预设范围内其他字幕的字幕间隙对所述音频重叠字幕进行调整包括：根据从后往前的顺序找出所有音频重叠字幕，依次判断所述音频重叠字幕位置后读取预设范围内是否有其他字幕的字幕间隙；若是所述音频重叠字幕位置后读取预设时长内有其他字幕的字幕间隙，则将所述音频重叠字幕与所述其他字幕的字幕间隙之间的所述其他字幕向后移动，使其填满所述字幕间隙；其中，所述预设时长为30秒。
12.在一些实施方式中，基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长，并基于所述配音语速对所述音频重叠字幕重新进行tts合成以更新对应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频包括：计算所述字幕时长与字幕间隙的和，作为配音时长阈值，计算所述配音时长与所述配音时长阈值的比值，作为所述音频重叠字幕的重叠率；判断所述重叠率是否大于第二预设重叠率；若是所述重叠率不大于第二预设重叠率，则将配音语速乘以所述重叠率作为新的配音语速，并基于所述新的配音语速对所述音频重叠字幕重新进行tts合成以更新对应的音频；若是所述重叠率大于所述第二预设重叠率，则将视频显示时长乘以所述重叠率作为新的视频显示时长，并基于新的视频显示时长
调整所述音频重叠字幕对应视频画面和字幕时长；其中，所述第二预设重叠率为120％。
13.本发明实施例的另一方面，还提供了一种视频机器配音的装置，包括：tts合成模块，配置用于从字幕文件中逐个读取每条字幕，分别对每条所述字幕进行tts合成以得到对应的音频；音频重叠检测模块，配置用于计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长，并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕；消除重叠模块，配置用于若是所述字幕为音频重叠字幕，则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长，并基于所述配音语速对所述音频重叠字幕重新进行tts合成以更新对应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频；以及视频合成模块，配置用于依次读取每条字幕对应的音频，并将所述音频插入到对应的视频节点中。
14.本发明实施例的再一方面，还提供了一种计算机设备，包括：至少一个处理器；以及存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述方法的步骤。
15.本发明实施例的再一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
16.本发明至少具有以下有益技术效果：依次按条读取字幕，对译文进行tts合成，并根据规则自动消除音频重叠，之后再次进行tts合成，并合成视频。本发明能够极大地节省配音时间与成本，提高机器配音的流畅度，使翻译人员经过简单的操作即可完成较高质量的配音工作。而不需要配音师、录音师、混音师、专业设备等的支持。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。
18.图1是本发明提供的视频机器配音的方法的实施例的示意图；
19.图2是本发明提供的视频机器配音的装置的实施例的示意图；
20.图3是本发明提供的计算机设备的实施例的示意图；
21.图4是本发明提供的计算机可读存储介质的实施例的示意图。
具体实施方式
22.为使本发明的目的、技术方案和优点更加清楚明白，下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。
23.需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。
24.除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元
件或其它组成部分。
25.基于上述目的，本发明实施例的第一个方面，提出了视频机器配音的方法的实施例。图1示出的是本发明提供的视频机器配音的方法的实施例的示意图。如图1所示，本发明实施例的视频机器配音的方法包括如下步骤：
26.001、从字幕文件中逐个读取每条字幕，分别对每条字幕进行tts合成以得到对应的音频；
27.002、计算每条字幕的字幕时长、字幕间隙和对应的音频的配音时长，并基于字幕时长、字幕间隙和配音时长分别判断每个字幕是否为音频重叠字幕；
28.003、若是字幕为音频重叠字幕，则基于字幕时长、字幕间隙和配音时长计算音频重叠字幕的重叠率，并基于重叠率调整配音语速和/或视频显示时长，并基于配音语速对音频重叠字幕重新进行tts合成以更新对应的音频和/或基于画面显示时长调整音频重叠字幕对应的视频；以及
29.004、依次读取每条字幕对应的音频，并将音频插入到对应的视频节点中。
30.在本实施例中，依次读取字幕文件中的每条字幕，计算本条字幕结束时间与开始时间的差值，记为字幕时长；读取本条字幕的下一条字幕，计算下一条字幕的开始时间与本条字幕结束时间的差值，记为字幕间隙；读取本条字幕译文tts合成形成的音频文件时长，记为配音时长；配音时长≥(字幕时长+字幕间隙)的记为音频重叠的字幕，配音时长/(字幕时长+字幕间隙)的值，记为重叠率；依次从后往前找出所有音频重叠的字幕。在音频重叠的字幕位置往后读取30秒内的字幕，并找出字幕间隙，若有间隙，则把音频重叠的字幕与字幕间隙之间的字幕往后移动，填满字幕间隙；依次从前往后找出重叠率》100％并且≤120％的字幕，把tts的配音语速设置为重叠率，再次进行tts合成；依次从前往后找出重叠率》120％的字幕，把视频从本字幕开始时间与结束时间之间的视频延长显示，延长时长为字幕时长乘以重叠率。重叠字幕的字幕时长乘以(重叠率-1)，记为平移时长。把重叠字幕后面的所有字幕开始时间与结束时间减去平移时长；依次读取字幕文件中的每条字幕，找出本条字幕对应的tts合成的音频文件，在本条字幕的开始时间处插入音频到视频中。
31.在本发明的一些实施例中，方法还包括：通过循环神经网络将每条双语字幕的原文字幕和译文字幕转换为音素，基于原文字幕的音素数目和译文字幕的音素数目计算译文字幕的预估重叠率，并判断预估重叠率是否超过第一预设重叠率；若是预估重叠率超过第一预设重叠率，则对译文字幕进行重译；若是预估重叠率不超过第一预设重叠率，则将译文字幕记录到字幕文件中。
32.在本实施例中，使用循环神经网络(recurrent neural network，rnn)，对双语字幕原文、译文实现从词语到音素的转化，检查双语字幕中的音素一致性，找出预估译文配音时长超出原文字幕时长加间隙30％的字幕，供翻译人员进行修改。
33.在本发明的一些实施例中，通过循环神经网络将每条双语字幕的原文字幕和译文字幕转换为音素包括：判断原文字幕/译文字幕是否为表意文字；若是原文字幕/译文字幕为表意文字，则将原文字幕/译文字幕转换为音标字母，再将音标字母转换为音素；基于原文字幕的音素数目和译文字幕的音素数目计算译文字幕的预估重叠率包括：读取并计算原文字幕结束时间与开始时间的差值，作为字幕时长，并计算原文字幕的音素数目与字幕时长的比值，作为语速，并计算译文字幕的音素数目与语速的乘积，作为预估译文字幕配音时
长；读取并计算下一原文字幕的开始时间与本条原文字幕结束时间的差值，作为字幕间隙，并计算字幕时长与字幕间隙的和，作为配音时长阈值，并计算预估译文字幕配音时长与配音时长阈值的比值，作为译文字幕的预估重叠率；其中，第一预设重叠率为130％。
34.在本实施例中，在依次按条对双语字幕原文、译文实现从词语到音素的转化之前，识别字幕原文或者译文是否为表意文字，如果是表意文字还需要将表意文字转换为音标字母之后再转换音标字母为音素。表意文字指语言含义跟文字密切关联，文字本身自带含义，表意文字对语音没有大的约束力；对应的表音文字指语言含义跟声音密切关联，文字是抽象符号，本身不带含义。表意文字包括中文、日文、泰文、藏文等；音标字母包括国际音标、汉语拼音、汉语注音符号、日语假名等。
35.在本实施例中，在依次按条对双语字幕原文、译文实现从词语到音素的转化之前，识别字幕原文或者译文是否为中文，如果为中文还需要将中文词转换为拼音，之后再转换拼音为音素。
36.在本实施例中，依次读取字幕文件中的每条字幕，计算本条字幕结束时间与开始时间的差值，记为字幕时长；计算本条字幕原文音素数除以字幕时长的值，记为语速，计算译文音素数乘以语速的值，记为预估译文配音时长；读取本条字幕的下一条字幕，计算下一条字幕的开始时间与本条字幕结束时间的差值，记为字幕间隙；预估译文配音时长/(字幕时长+字幕间隙)≥130％，则需要翻译人员对译文字幕进行重译。
37.在本发明的一些实施例中，计算每条字幕的字幕时长、字幕间隙和对应的音频的配音时长，并基于字幕时长、字幕间隙和配音时长分别判断每个字幕是否为音频重叠字幕包括：依次读取并计算每条字幕的结束时间与开始时间的差值，作为字幕时长；读取并计算下一条字幕的开始时间与本条字幕结束时间的差值，作为字幕间隙；读取字幕对应的音频的配音时长，并判断字幕对应的配音时长是否大于字幕时长和字幕间隙的和；若是字幕对应的配音时长大于字幕时长和字幕间隙的和，则确认字幕为音频重叠字幕。
38.在本实施例中，依次读取字幕文件中的每条字幕，计算本条字幕结束时间与开始时间的差值，记为字幕时长；读取本条字幕的下一条字幕，计算下一条字幕的开始时间与本条字幕结束时间的差值，记为字幕间隙；读取本条字幕译文tts合成形成的音频文件时长，记为配音时长；配音时长≥(字幕时长+字幕间隙)的记为音频重叠的字幕。
39.在本发明的一些实施例中，若是字幕为音频重叠字幕，则基于字幕时长、字幕间隙和配音时长计算音频重叠字幕的重叠率，并基于重叠率调整配音语速和/或视频显示时长包括：若是字幕为音频重叠字幕，则基于音频重叠字幕预设范围内其他字幕的字幕间隙对音频重叠字幕进行调整，并重新计算调整后的音频重叠字幕的字幕时长和字幕间隙以重新判断调整后的音频重叠字幕是否仍为音频重叠字幕；若是调整后的音频重叠字幕仍为音频重叠字幕，则基于字幕时长、字幕间隙和配音时长计算字幕的重叠率，并基于重叠率调整配音语速和/或视频显示时长。
40.在本实施例中，配音时长/(字幕时长+字幕间隙)的值，记为重叠率。
41.在本发明的一些实施例中，基于音频重叠字幕预设范围内其他字幕的字幕间隙对音频重叠字幕进行调整包括：根据从后往前的顺序找出所有音频重叠字幕，依次判断音频重叠字幕位置后读取预设范围内是否有其他字幕的字幕间隙；若是音频重叠字幕位置后读取预设时长内有其他字幕的字幕间隙，则将音频重叠字幕与其他字幕的字幕间隙之间的其
他字幕向后移动，使其填满字幕间隙；其中，预设时长为30秒。
42.在本实施例中，依次从后往前找出所有音频重叠的字幕。在音频重叠的字幕位置往后读取30秒内的字幕，并找出字幕间隙，若有间隙，则把音频重叠的字幕与字幕间隙之间的字幕往后移动，填满字幕间隙。
43.在本发明的一些实施例中，基于字幕时长、字幕间隙和配音时长计算音频重叠字幕的重叠率，并基于重叠率调整配音语速和/或视频显示时长，并基于配音语速对音频重叠字幕重新进行tts合成以更新对应的音频和/或基于画面显示时长调整音频重叠字幕对应的视频包括：计算字幕时长与字幕间隙的和，作为配音时长阈值，计算配音时长与配音时长阈值的比值，作为音频重叠字幕的重叠率；判断重叠率是否大于第二预设重叠率；若是重叠率不大于第二预设重叠率，则将配音语速乘以重叠率作为新的配音语速，并基于新的配音语速对音频重叠字幕重新进行tts合成以更新对应的音频；若是重叠率大于第二预设重叠率，则将视频显示时长乘以重叠率作为新的视频显示时长，并基于新的视频显示时长调整音频重叠字幕对应视频画面和字幕时长；其中，第二预设重叠率为120％。
44.在本实施例中，依次从前往后找出重叠率》100％并且≤120％的字幕，把tts的配音语速设置为重叠率，再次进行tts合成；依次从前往后找出重叠率》120％的字幕，把视频从本字幕开始时间与结束时间之间的视频延长显示，延长时长为字幕时长乘以重叠率。重叠字幕的字幕时长乘以(重叠率-1)，记为平移时长。把重叠字幕后面的所有字幕开始时间与结束时间减去平移时长。
45.需要特别指出的是，上述视频机器配音的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于视频机器配音的方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在实施例之上。
46.基于上述目的，本发明实施例的第二个方面，提出了一种视频机器配音的装置。图2示出的是本发明提供的视频机器配音的装置的实施例的示意图。如图2所示，本发明实施例的视频机器配音的装置包括如下模块：tts合成模块011，配置用于从字幕文件中逐个读取每条字幕，分别对每条字幕进行tts合成以得到对应的音频；音频重叠检测模块012，配置用于计算每条字幕的字幕时长、字幕间隙和对应的音频的配音时长，并基于字幕时长、字幕间隙和配音时长分别判断每个字幕是否为音频重叠字幕；消除重叠模块013，配置用于若是字幕为音频重叠字幕，则基于字幕时长、字幕间隙和配音时长计算音频重叠字幕的重叠率，并基于重叠率调整配音语速和/或视频显示时长，并基于配音语速对音频重叠字幕重新进行tts合成以更新对应的音频和/或基于画面显示时长调整音频重叠字幕对应的视频；以及视频合成模块014，配置用于依次读取每条字幕对应的音频，并将音频插入到对应的视频节点中。
47.基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示，本发明实施例的计算机设备包括如下装置：至少一个处理器021；以及存储器022，存储器022存储有可在处理器上运行的计算机指令023，指令由处理器执行时实现以上方法的步骤。
48.本发明还提供了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示，计算机可读存储介质031存储有被处理器执行时执行如上方法的计算机程序032。
49.最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件完成，视频机器配音的方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
50.此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。
51.此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
52.本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
53.在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
54.以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。
55.应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
56.上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。
57.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
58.所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

技术特征：
1.一种视频机器配音的方法，其特征在于，包括以下步骤：从字幕文件中逐个读取每条字幕，分别对每条所述字幕进行tts合成以得到对应的音频；计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长，并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕；若是所述字幕为音频重叠字幕，则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长，并基于所述配音语速对所述音频重叠字幕重新进行tts合成以更新对应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频；以及依次读取每条字幕对应的音频，并将所述音频插入到对应的视频节点中。2.根据权利要求1所述的视频机器配音的方法，其特征在于，还包括：通过循环神经网络将每条双语字幕的原文字幕和译文字幕转换为音素，基于所述原文字幕的音素数目和所述译文字幕的音素数目计算所述译文字幕的预估重叠率，并判断所述预估重叠率是否超过第一预设重叠率；若是所述预估重叠率超过第一预设重叠率，则对所述译文字幕进行重译；若是所述预估重叠率不超过第一预设重叠率，则将所述译文字幕记录到字幕文件中。3.根据权利要求2所述的视频机器配音的方法，其特征在于，通过循环神经网络将每条双语字幕的原文字幕和译文字幕转换为音素包括：判断原文字幕/译文字幕是否为表意文字；若是原文字幕/译文字幕为表意文字，则将所述原文字幕/所述译文字幕转换为音标字母，再将所述音标字母转换为音素；基于所述原文字幕的音素数目和所述译文字幕的音素数目计算所述译文字幕的预估重叠率包括：读取并计算所述原文字幕结束时间与开始时间的差值，作为字幕时长，并计算所述原文字幕的音素数目与所述字幕时长的比值，作为语速，并计算所述译文字幕的音素数目与所述语速的乘积，作为预估译文字幕配音时长；读取并计算下一原文字幕的开始时间与本条原文字幕结束时间的差值，作为字幕间隙，并计算所述字幕时长与字幕间隙的和，作为配音时长阈值，并计算所述预估译文字幕配音时长与所述配音时长阈值的比值，作为所述译文字幕的预估重叠率；其中，所述第一预设重叠率为130％。4.根据权利要求1所述的视频机器配音的方法，其特征在于，计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长，并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕包括：依次读取并计算每条所述字幕的结束时间与开始时间的差值，作为字幕时长；读取并计算下一条字幕的开始时间与本条字幕结束时间的差值，作为字幕间隙；读取所述字幕对应的所述音频的配音时长，并判断所述字幕对应的配音时长是否大于所述字幕时长和所述字幕间隙的和；若是所述字幕对应的配音时长大于所述字幕时长和所述字幕间隙的和，则确认所述字幕为音频重叠字幕。
5.根据权利要求1-4任意一项所述的视频机器配音的方法，其特征在于，若是所述字幕为音频重叠字幕，则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长包括：若是所述字幕为音频重叠字幕，则基于所述音频重叠字幕预设范围内其他字幕的字幕间隙对所述音频重叠字幕进行调整，并重新计算调整后的所述音频重叠字幕的字幕时长和字幕间隙以重新判断调整后的所述音频重叠字幕是否仍为音频重叠字幕；若是调整后的所述音频重叠字幕仍为音频重叠字幕，则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长。6.根据权利要求5所述的视频机器配音的方法，其特征在于，基于所述音频重叠字幕预设范围内其他字幕的字幕间隙对所述音频重叠字幕进行调整包括：根据从后往前的顺序找出所有音频重叠字幕，依次判断所述音频重叠字幕位置后读取预设范围内是否有其他字幕的字幕间隙；若是所述音频重叠字幕位置后读取预设时长内有其他字幕的字幕间隙，则将所述音频重叠字幕与所述其他字幕的字幕间隙之间的所述其他字幕向后移动，使其填满所述字幕间隙；其中，所述预设时长为30秒。7.根据权利要求1所述的视频机器配音的方法，其特征在于，基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长，并基于所述配音语速对所述音频重叠字幕重新进行tts合成以更新对应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频包括：计算所述字幕时长与字幕间隙的和，作为配音时长阈值，计算所述配音时长与所述配音时长阈值的比值，作为所述音频重叠字幕的重叠率；判断所述重叠率是否大于第二预设重叠率；若是所述重叠率不大于第二预设重叠率，则将配音语速乘以所述重叠率作为新的配音语速，并基于所述新的配音语速对所述音频重叠字幕重新进行tts合成以更新对应的音频；若是所述重叠率大于所述第二预设重叠率，则将视频显示时长乘以所述重叠率作为新的视频显示时长，并基于新的视频显示时长调整所述音频重叠字幕对应视频画面和字幕时长；其中，所述第二预设重叠率为120％。8.一种视频机器配音的装置，其特征在于，包括：tts合成模块，配置用于从字幕文件中逐个读取每条字幕，分别对每条所述字幕进行tts合成以得到对应的音频；音频重叠检测模块，配置用于计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长，并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕；消除重叠模块，配置用于若是所述字幕为音频重叠字幕，则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率，并基于所述重叠率调整配音语速和/或视频显示时长，并基于所述配音语速对所述音频重叠字幕重新进行tts合成以更新对
应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频；以及视频合成模块，配置用于依次读取每条字幕对应的音频，并将所述音频插入到对应的视频节点中。9.一种计算机设备，其特征在于，包括：至少一个处理器；以及存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述计算机指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。

技术总结
本发明公开了一种视频机器配音的方法，包括：从字幕文件中逐个读取每条字幕，分别对每条字幕进行TTS合成以得到对应的音频；计算每条字幕的字幕时长、字幕间隙和对应的音频的配音时长，并基于字幕时长、字幕间隙和配音时长分别判断每个字幕是否为音频重叠字幕；若是字幕为音频重叠字幕，则基于字幕时长、字幕间隙和配音时长计算音频重叠字幕的重叠率，并基于重叠率调整配音语速和/或视频显示时长，并基于配音语速对音频重叠字幕重新进行TTS合成以更新对应的音频和/或基于画面显示时长调整音频重叠字幕对应的视频；依次读取每条字幕对应的音频，并将音频插入到对应的视频节点中。本发明还公开了一种视频机器配音的装置、计算机设备和可读存储介质。设备和可读存储介质。设备和可读存储介质。

技术研发人员：宋君王正航
受保护的技术使用者：武汉简视科技有限公司
技术研发日：2022.07.20
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-3555.html

专利

最新回复(0)