一种乐谱生成方法、装置、电子设备和存储介质与流程

专利2024-07-15  48



1.本公开涉及语音处理技术领域,尤其涉及一种乐谱生成方法、装置、电子设备和存储介质。


背景技术:

2.目前,将歌声转换为乐谱的处理技术可以应用到多种不同的场景中,例如,可以应用到训练歌声合成模型的场景中。
3.相关技术中,在将歌声转换为乐谱时,通常采用数字信号处理的方法,计算得到帧级别音频数据的音高信息,通过平滑估计取平均数等后处理,进而从音频数据中提取出旋律序列。
4.然而,相关技术中,由于从音频数据中提取出的旋律序列仅包含音符的音高信息,因此,若音频数据为人声歌声时,仅能提取出的旋律序列,但无法得到与人声对应的演唱文字/歌词内容,从而会降低生成的乐谱的丰富程度和完整程度。


技术实现要素:

5.本公开实施例提供一种乐谱生成方法、装置、电子设备和存储介质,以提高生成乐谱的丰富程度和完整程度。
6.本公开实施例提供的具体技术方案如下:
7.一种乐谱生成方法,包括:
8.对音频数据进行文本识别,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息,其中,每个文本信息包含至少一个文本字符,各时间信息表征包含有对应的文本信息的音频区间在所述音频数据中所占的时间段信息;
9.基于已训练的音符识别模型,以所述音频数据对应的音频特征和各时间信息为输入参数,分别确定所述各时间信息内所述音频数据包含的音符数据;
10.基于确定出的各音符数据和各文本信息,生成所述音频数据对应的乐谱数据。
11.可选的,所述对音频数据进行文本识别,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息,包括:
12.基于已训练的文本识别模型,以所述音频数据为输入参数,分别确定所述音频数据中,各音频帧对应的文本信息,并基于所述各音频帧对应的文本信息,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息;
13.其中,所述音频数据至少包括各音频帧,所述文本识别模型为根据各音频数据样本和对应的文本信息标签通过迭代训练获得的。
14.可选的,所述音频特征至少包括基频序列和歌声特征,所述分别确定所述各时间信息内所述音频数据包含的音符数据,包括:
15.基于所述基频序列和所述歌声特征,分别确定所述音频数据中包括的各音频帧对应的音符数据;
16.基于所述各音频帧对应的音符数据,分别确定所述各时间信息内所述音频数据包含的音符数据。
17.可选的,所述方法还包括:
18.对所述音频数据进行分帧,获得所述音频数据包含的各音频帧;
19.分别确定所述各音频帧对应的基频特征;
20.生成包含有各基频特征的基频序列。
21.可选的,所述基于确定出的各音符数据和各文本信息,生成所述音频数据对应的乐谱数据,包括:
22.分别确定所述各时间信息内所述音频数据包含的音符数据对应的音高信息;
23.基于各音高信息和各文本信息,生成所述音频数据对应的乐谱数据。
24.可选的,所述分别确定所述各时间信息内所述音频数据包含的音符数据对应的音高信息,包括:
25.针对所述各时间信息,分别执行以下操作:
26.若确定任意一时间信息内,所述音频数据包含的音符数据中音符的总数目为1,则确定对应的文本信息与所述音符数据匹配,将所述音符数据对应的音高信息作为所述时间信息内所述音频数据包含的音符数据对应的音高信息;
27.若确定所述总数目大于1,则将所述音符数据包含的各音符中,除预设位置的音符以外的各音符作为所述预设位置的音符的延音符,并基于所述预设位置的音符对应的音高信息和各延音符对应的音高信息,获得所述音频数据包含的音符数据对应的音高信息。
28.可选的,所述音符识别模型的训练方式为:
29.获得音频样本集,其中,所述音频样本集包含各音频数据样本、每个音频数据样本标记有各时间信息样本,以及各时间信息样本对应的音符标签;
30.分别对各音频数据样本进行特征提取,获得各音频数据样本对应的音频样本特征;
31.分别将所述音频样本特征和相应的各时间信息样本输入至初始的音符识别模型,确定各音频数据样本包含的各初始音符,并基于各初始音符和各音符标签,调整初始的音符识别模型的各项模型参数,直至所述初始的音符识别模型的损失函数收敛,获得训练完成的音符识别模型。
32.一种乐谱生成装置,包括:
33.第一识别模块,用于对音频数据进行文本识别,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息,其中,每个文本信息包含至少一个文本字符,各时间信息表征包含有对应的文本信息的音频区间在所述音频数据中所占的时间段信息;
34.第二识别模块,用于基于已训练的音符识别模型,以所述音频数据对应的音频特征和各时间信息为输入参数,分别确定所述各时间信息内所述音频数据包含的音符数据;
35.生成模块,用于基于确定出的各音符数据和各文本信息,生成所述音频数据对应的乐谱数据。
36.可选的,所述第一识别模块还用于:
37.基于已训练的文本识别模型,以所述音频数据为输入参数,分别确定所述音频数据中,各音频帧对应的文本信息,并基于所述各音频帧对应的文本信息,确定所述音频数据
包含的各文本信息,以及所述各文本信息对应的时间信息;
38.其中,所述音频数据至少包括各音频帧,所述文本识别模型为根据各音频数据样本和对应的文本信息标签通过迭代训练获得的。
39.可选的,所述音频特征至少包括基频序列和歌声特征,所述分别确定所述各时间信息内所述音频数据包含的音符数据时,所述第二识别模块还用于:
40.基于所述基频序列和所述歌声特征,分别确定所述音频数据中包括的各音频帧对应的音符数据;
41.基于所述各音频帧对应的音符数据,分别确定所述各时间信息内所述音频数据包含的音符数据。
42.可选的,所述方法还包括处理模块,所述处理模块用于:
43.对所述音频数据进行分帧,获得所述音频数据包含的各音频帧;
44.分别确定所述各音频帧对应的基频特征;
45.生成包含有各基频特征的基频序列。
46.可选的,所述生成模块还用于:
47.分别确定所述各时间信息内所述音频数据包含的音符数据对应的音高信息;
48.基于各音高信息和各文本信息,生成所述音频数据对应的乐谱数据。
49.可选的,所述分别确定所述各时间信息内所述音频数据包含的音符数据对应的音高信息时,所述生成模块还用于:
50.针对所述各时间信息,分别执行以下操作:
51.若确定任意一时间信息内,所述音频数据包含的音符数据中音符的总数目为1,则确定对应的文本信息与所述音符数据匹配,将所述音符数据对应的音高信息作为所述时间信息内所述音频数据包含的音符数据对应的音高信息;
52.若确定所述总数目大于1,则将所述音符数据包含的各音符中,除预设位置的音符以外的各音符作为所述预设位置的音符的延音符,并基于所述预设位置的音符对应的音高信息和各延音符对应的音高信息,获得所述音频数据包含的音符数据对应的音高信息。
53.可选的,所述装置还包括训练模块,所述训练模块用于:
54.获得音频样本集,其中,所述音频样本集包含各音频数据样本、每个音频数据样本标记有各时间信息样本,以及各时间信息样本对应的音符标签;
55.分别对各音频数据样本进行特征提取,获得各音频数据样本对应的音频样本特征;
56.分别将所述音频样本特征和相应的各时间信息样本输入至初始的音符识别模型,确定各音频数据样本包含的各初始音符,并基于各初始音符和各音符标签,调整初始的音符识别模型的各项模型参数,直至所述初始的音符识别模型的损失函数收敛,获得训练完成的音符识别模型。
57.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述乐谱生成方法的步骤。
58.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述乐谱生成方法的步骤。
59.本公开实施例中,对音频数据进行文本识别,确定音频数据包含的各文本信息,以
及各文本信息对应的时间信息,基于已训练的音符识别模型,以音频数据对应的音频特征和各时间信息为输入参数,分别确定各时间信息内音频数据包含的音符数据,基于确定出的各音符数据和各文本信息,生成音频数据对应的乐谱数据。这样,当音频数据为人声歌声时,将音频数据包含的各文本信息对应的时间信息和音频数据的音频特征输入至音符识别模型,能够基于音符识别模型确定每个时间信息内的音频数据包含的音符数据,从而可以根据音符数据和文本信息,生成乐谱数据,由于音符数据为时间信息内音频数据所包含的音符,因此,能够得到与人声对应的文本信息,并且,每个文本信息均是与相应的音符数据相互匹配的,从而能够提高生成的乐谱的丰富程度和完整程度。
附图说明
60.图1为本公开实施例中训练音符识别模型的流程示意图;
61.图2为本公开实施例中一种乐谱生成方法的流程示意图;
62.图3为本公开实施例中文本识别的第一示例图;
63.图4为本公开实施例中文本识别的第二示例图;
64.图5为本公开实施例中确定音符数据的示例图;
65.图6为本公开实施例中生成乐谱数据的示例图;
66.图7为本公开实施例中的乐谱生成系统的结构示意图;
67.图8为本公开实施例提供的乐谱生成装置的结构示意图;
68.图9为本公开实施例中电子设备的结构示意图。
具体实施方式
69.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
70.本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
71.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
72.为了方便理解,下面对本公开实施例中涉及的名词进行解释:
73.音频帧:对音频数据进行分帧处理,将音频数据切分成若干份短时间的音频信号,每一段短时间的音频信号为一个音频帧。
74.音符:音乐的最小组成单位,一个音符可持续一定的时间,并具有一个音高值。
75.基频:当发声体由于振动而发出声音时,可以将声音仅分解为若干个正弦波,即,所有的自然声音基本都是由许多频率不同的正弦波组成的,其中频率最低的正弦波即为基频,单位为赫兹。
76.延音符:特指歌唱中的延音符,延续前一音符尾音发音,但音高与前一音符不同,并拥有一定时长的音符。
77.下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
78.发明概述
79.相关技术中,在将歌声转换为乐谱时,通常是采用数字信号处理的方法,计算得到帧级别音频数据的音高标记,通过平滑估计取平均数等后处理,从音频数据中提取旋律序列。然而,由于从音频数据中提取出的旋律序列仅包含音符的时间和音高信息,因此,当音频数据为人声歌声时,无法得到与人声对应的演唱文字/歌词内容,导致生成的乐谱丰富程度和完整度不高。
80.为了解决上述问题,本公开提供了一种乐谱生成方法,具体包括如下步骤:对音频数据进行文本识别,确定音频数据包含的各文本信息,以及各文本信息对应的时间信息,基于已训练的音符识别模型,以音频数据对应的音频特征和各时间信息为输入参数,分别确定各时间信息内音频数据包含的音符数据,基于确定出的各音符数据和各文本信息,生成音频数据对应的乐谱数据。这样,从音频数据中确定出音符数据和文本信息,从而基于音符数据和文本信息是基于文本信息的时间信息进行匹配,因此,当音频数据为人声歌声时,提取出的音符数据能够与人声的文本信息匹配起来,提高了乐谱的丰富程度和完整程度。
81.在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
82.应用场景总览
83.本公开实施例中的方法可以应用于需要文本与音符对应匹配的乐谱作为训练数据的应用场景,例如,可以应用于训练歌声合成模型的场景中,在训练过程中,需要获取按照时序排列的演唱文字、演唱时长、演唱音符等信息,因此,通过本公开实施例中的方法,能够获得演唱文字与演唱音符相匹配的乐谱数据,从而能够获得用于训练歌声合成模型的乐谱样本。
84.示例性方法
85.下面结合上述应用场景,来描述根据本公开示例性实施方式的乐谱生成方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
86.基于上述实施例,首先对本公开实施例中的音符识别模型的训练过程进行说明,参阅图1所示,为本公开实施例中训练音符识别模型的流程示意图,具体包括:
87.步骤100:获得音频样本集。
88.其中,音频样本集包含各音频数据样本、每个音频数据样本标记有各时间信息样本,以及各时间信息样本对应的音符标签。
89.本公开实施例中,获得用于训练音符识别模型的音频样本集。
90.其中,本公开实施例中的音频样本集中包括多个音频数据样本,每个音频数据样本中包含有各文本信息标签,每个文本信息标签对应有时间信息样本,每个时间信息样本对应有至少一个音符标签。
91.需要说明的是,由于在一个时间段中,音频数据可能仅对应一个音符,也可能对应多个音符,在音频数据对应多个音符的情况下,除第一个音符以外的其它音符为第一个音符的延音符。
92.步骤110:分别对各音频数据样本进行特征提取,获得各音频数据样本对应的音频
样本特征。
93.本公开实施例中,采用预设的特征提取方式,分别对各音频数据样本进行特征提取,从而获得各音频数据样本对应的音频样本特征。
94.其中,本公开实施例中,在对音频数据样本进行特征提取的过程中,可获得音频数据样本的基频序列和歌声特征,并将音频数据样本的基频序列和歌声特征作为音频数据样本对应的音频样本特征。
95.步骤120:分别将音频样本特征和相应的各时间信息样本输入至初始的音符识别模型,确定各音频数据样本包含的各初始音符,并基于各初始音符和各音符标签,调整初始的音符识别模型的各项模型参数,直至初始的音符识别模型的损失函数收敛,获得训练完成的音符识别模型。
96.本公开实施例中,分别采用各音频样本特征、各音频样本特征对应的各时间信息样本,以及相应的各音符标签训练初始的音符识别模型,具体的,将各音频样本特征和各音频样本特征对应的各时间信息样本输入至初始的音符识别模型中,基于音频样本特征、音频样本特征对应的各时间信息样本,确定时间信息样本内音频数据样本的音符数据,并基于音符数据和音符数据标签,对初始的音符识别模型的各项模型参数进行调整,直至初始的音符识别模型的损失函数收敛,从而获得训练完成的音符识别模型。
97.基于上述实施例,参阅图2所示,为本公开实施例中一种乐谱生成方法的流程示意图,具体包括:
98.步骤200:对音频数据进行文本识别,确定音频数据包含的各文本信息,以及各文本信息对应的时间信息。
99.其中,每个文本信息包含至少一个文本字符,各时间信息表征包含有对应的文本信息的音频区间在音频数据中所占的时间段信息。
100.本公开实施例中,对音频数据进行文本识别,将音频数据转换为文本数据,从而获得音频数据包含的各文本信息,以及包含有对应的文本信息的音频区间在音频数据中所占的时间段信息。
101.例如,参阅图3所示,为本公开实施例中文本识别的第一示例图,对音频数据进行文本识别后,确定出音频数据包含的各文本信息分别为“今”、“天”、“的”、“天”、“空”,其中,包含有“今”的音频区间在音频数据中所占的时间信息为音频数据的第0秒结束开始到第1秒结束为止,包含有“天”的音频区间在音频数据中所占的时间信息为音频数据的第1秒结束开始到第3秒结束为止,包含有“的”的音频区间在音频数据中所占的时间信息为音频数据的第3秒结束开始到第4秒结束为止,包含有“天”的音频区间在音频数据中所占的时间信息为音频数据的第4秒结束开始到第7秒结束为止,包含有“空”的音频区间在音频数据中所占的时间信息为音频数据的第7秒结束开始到第10秒结束为止。
102.可选的,本公开实施例中,可以通过文本识别模型确定音频数据包含的文本信息,因此,为对音频数据进行文本识别提供了一种可能的实施方式,具体包括:
103.基于已训练的文本识别模型,以音频数据为输入参数,分别确定音频数据中,各音频帧对应的文本信息,并基于各音频帧对应的文本信息,确定音频数据包含的各文本信息,以及各文本信息对应的时间信息。
104.其中,音频数据至少包括各音频帧,文本识别模型为根据各音频数据样本和对应
的文本信息标签通过迭代训练获得的。
105.首先,对本公开实施例中文本识别模型的训练过程进行说明:获取用于训练文本识别模型的样本集,样本集中包括多个音频数据样本,每个音频数据样本对应于多个文本信息标签,将各音频数据样本输入至初始的文本识别模型中,确定音频数据样本包含的各文本信息,并根据该音频数据样本对应的各文本信息标签,对初始的文本识别模型的各项模型参数进行调整,直至文本识别模型的损失函数收敛,获得训练完成的文本识别模型。
106.然后,在获得训练完成的文本识别模型后,将音频数据输入至已训练的文本识别模型中,对音频数据进行分帧,获得音频数据对应的各音频帧,然后,分别对各音频帧进行文本识别,获得各音频帧对应的文本信息,基于各音频帧对应的文本信息,将相同的文本信息进行合并,从而确定出音频数据包含的文本信息,以及各文本信息对应的时间信息。
107.例如,参阅图4所示,为本公开实施例中文本识别的第二示例图,假设音频数据包含的各音频帧对应的文本信息分别为“天”、“天”、“天”“空”、“空”、“空”、“空”,因此,将第1个音频帧、第2个音频帧和第3个音频帧进行合并,并将第4个音频帧、第5个音频帧、第6个音频帧和第7个音频帧进行合并,从而确定出音频数据包含的各文本信息分别为“天”和“空”,其中,“天”对应的时间信息为第1-3个音频帧在音频数据中所占的时间段信息,“空”对应的时间信息为第4-7个音频帧在音频数据中所占的时间段信息。
108.步骤210:基于已训练的音符识别模型,以音频数据对应的音频特征和各时间信息为输入参数,分别确定各时间信息内音频数据包含的音符数据。
109.本公开实施例中,将音频数据对应的音频特征和各时间信息输入至已训练的音符识别模型中,通过音符识别模型输出各时间信息内音频数据包含的音符数据。
110.需要说明的是,本公开实施例中的音频特征至少包括以下一种:基频序列和歌声特征。
111.其中,基频序列包括音频数据的各音频帧各自对应的基频特征,每个基频特征为对于相应的音频帧进行基频提取获得的,例如,可以采用频域法提取基频特征。基频特征为音频帧的频率最低的正弦波,用于决定音频帧的音高信息。
112.歌声特征是对于音频数据进行歌声特征提取后获得的,表征音频数据在各歌声维度下的特征,例如,歌声特征为在10种不同歌声维度下的10维向量,本公开实施例中对此并不进行限制。
113.下面先对本公开实施例中确定音频数据的基频序列的过程进行说明:
114.第一步,对音频数据进行分帧,获得音频数据包含的各音频帧。
115.本公开实施例中,按照预设的时间间隔,对音频数据进行分帧,从而将音频数据划分为多个音频帧。
116.第二步,分别确定各音频帧对应的基频特征。
117.本公开实施例中,在获得音频数据包含的各音频帧后,分别对各音频帧进行基频提取,获得各音频帧对应的基频特征。
118.其中,每个音频帧对应一个基频特征。
119.第三步,生成包含有各基频特征的基频序列。
120.本公开实施例中,基于各音频帧对应的基频特征,生成基频序列,因此,生成的基频序列中包含有各音频帧对应的基频特征。
121.可选的,本公开实施例中,当音频特征包括歌声特征和基频序列时,即可基于歌声特征和基频序列确定音符数据,下面对本公开实施例中,确定音符数据的过程进行说明,具体包括:
122.s1:基于基频序列和歌声特征,分别确定音频数据中包括的各音频帧对应的音符数据。
123.本公开实施例中,由于基频序列包含有各音频帧的基频特征,音频数据的歌声特征包含有各音频帧的歌声特征,因此,分别针对各音频帧,执行以下操作:从基频序列中,确定出任意一个音频帧对应的基频特征,以及,从歌声特征中,确定出该音频帧对应的歌声特征,基于该音频帧的基频特征和歌声特征,确定出该音频帧中包含的音符数据,这样,能够获得音频数据中包含的各音频帧对应的音符数据。
124.需要说明的是,本公开实施例中,每个音频帧对应一个音符数据。
125.进一步地,本公开实施例中,在确定音频帧对应的音符数据时,可以基于基频序列中的基频特征、歌声特征与音符数据之间的对应关系获得,也即,基频序列中的基频特征和歌声特征,与音符数据之间存在对应的关系,从而能够基于基频特征和歌声特征,与音符数据之间的对应关系,获得相应的音符数据。
126.s2:基于各音频帧对应的音符数据,分别确定各时间信息内音频数据包含的音符数据。
127.本公开实施例中,分别确定各时间信息对应的音频区间内包含的音符数据,下面以任意一个时间信息(以下称为时间信息i)为例,介绍本公开实施例中确定音符数据的过程如下:首先,确定时间信息i对应的各音频帧,然后,基于各音频帧对应的音符数据,确定出时间信息i对应的音频区间包含的音符数据。
128.例如,参阅图5所示,为本公开实施例中确定音符数据的示例图,音频数据在时间信息i内包含有5个音频帧,其中,第1个音频帧对应的音符数据为“1”,第2个音频帧对应的音符数据为“1”,第3个音频帧对应的音符数据为“1”,第4个音频帧对应的音符数据为“1”,第5个音频帧对应的音符数据为“1”,因此,确定出时间信息i对应的音频区间所包含的音符数据为“1”。
129.步骤220:基于确定出的各音符数据和各文本信息,生成音频数据对应的乐谱数据。
130.本公开实施例中,在获得各时间信息对应的音符数据和文本信息后,基于确定出的各音符数据和相应的文本信息,生成音频数据对应的乐谱数据。
131.可选的,本公开实施例中,为生成音频数据对应的乐谱数据提供了一种可能的实施方式,下面对本公开实施例中生成乐谱数据的过程进行说明:
132.首先,分别确定各时间信息内音频数据包含的音符数据对应的音高信息。
133.本公开实施例中,分别确定音频数据在各时间信息内的音频区间包含的各音符数据对应的音高信息。
134.可选的,本公开实施例中,可以基于音频区间内音符数据的数量来确定音高信息,具体可以分为以下两种情况,下面以时间信息i为例,介绍本公开实施例中确定音高信息的过程如下:
135.第一种情况:音符的总数目为1。
136.具体的,若确定任意一时间信息内,音频数据包含的音符数据中音符的总数目为1,则确定对应的文本信息与音符数据匹配,将音符数据对应的音高信息作为时间信息内音频数据包含的音符数据对应的音高信息。
137.本公开实施例中,统计时间信息i内,音频数据内包含的音符数据中音符的总数目,当确定总数目为1时,文本信息与音符数据是一一匹配的,也即,音频数据在时间信息i内的音频区间中,包含有一个音符,因此,基于音符数据与音高信息之间的关联关系,确定音符数据对应的音高信息,并将确定出的音高信息作为时间信息i内音频数据包含的音符数据对应的音高信息。
138.例如,假设时间信息i内,音频数据包含的音符为“7”,且仅包含有音符“7”,因此,确定“7”的音高信息,并将确定出的音高信息作为时间信息i内音频数据包含的音符数据对应的音高信息。
139.第二种情况:音符的总数目大于1。
140.具体的,若确定总数目大于1,则将音符数据包含的各音符中,除预设位置的音符以外的各音符作为预设位置的音符的延音符,并基于预设位置的音符对应的音高信息和各延音符对应的音高信息,获得音频数据包含的音符数据对应的音高信息。
141.本公开实施例中,统计时间信息i内,音频数据内包含的音符数据中音符的总数目,当确定总数目大于1时,确定时间信息i内音频数据包含有多个音符,因此,将音符数据包含的各音符中,位于预设位置的音符作为主音符,并将除预设位置的音符以外的各个音符作为主音符的延音符,然后,基于主音符对应的音高信息,以及各延音符对应的音高信息,确定音频数据包含的音符数据对应的音高信息。
142.其中,预设位置的音符可以为位于各音符中的第一个音符,本公开实施例中对此并不进行限制。
143.例如,假设时间信息i内,音频数据包含的音符为“7”、“1”、“2”,因此,将第一个音符“7”作为主音符,将“1”和“2”作为音符“7”的延音符,确定“7”的音高信息、“1”的音高信息和“2”的音高信息,并基于“7”的音高信息、“1”的音高信息和“2”的音高信息,获得时间信息i内音频数据包含的音符数据对应的音高信息。
144.然后,基于各音高信息和各文本信息,生成音频数据对应的乐谱数据。
145.本公开实施例中,在获得音高信息和文本信息后,基于各时间信息,分别将各音高信息和相应的文本信息进行组合,获得各时间信息内音频数据对应的乐谱数据,再将各时间信息内音频数据对应的乐谱数据进行合并,生成音频数据对应的乐谱数据。
146.例如,参阅图6所示,为本公开实施例中生成乐谱数据的示例图,其中,文本信息为“鸟”、“儿”、“在”、“高”、“声”、“歌”、“唱”,基于各音高信息和各文本信息,生成如图6所示的乐谱数据。
147.本公开实施例中,通过各时间信息内音频数据的音符数据,生成乐谱数据,能够为音频数据生成带有文本信息与音符数据的乐谱标记,提高了乐谱数据的完整程度和丰富程度,并可在歌声合成研究领域当作训练数据使用。
148.基于上述实施例,参阅图7所示,为本公开实施例中的乐谱生成系统的结构示意图,具体包括:
149.本公开实施例中的乐谱生成系统包括模型训练模块和应用模块,模块训练模块包
括文字识别模块和音符识别模块,应用模块包括完成训练的文字识别模块、基频提取模块和完成训练的音符识别模块。下面分别对本公开实施例中的模型训练模块和应用模块进行说明。
150.模型训练模块:
151.1、文本识别模块。
152.本公开实施例中,首先,分别对音频数据样本进行文本时间的边界打标,获得时间信息标记,并分别将各音频数据样本进行分帧处理,从而将分帧后的各音频数据样本输入至初始的文本识别模型中,从而以帧级别的音频数据样本为输入,文本信息为目标建立文本识别模型。
153.2、音符识别模块。
154.本公开实施例中,获取带有各时间信息样本的各音频数据样本,对每一段时间信息样本内音频数据样本包含的音符数据进行标记,从而获得各时间信息样本对应的音符标签,同时,分别提取各音频数据样本中,以帧为单位的基频序列,分别对音频数据样本进行分帧处理,得到每个音频帧的歌声特征、音符标签、基频特征三者匹配的特征对,从而以帧级别的音频数据样本、基频特征和歌声特征为输入,音符数据为输出建立音符识别模型。
155.应用模块:
156.应用模块执行流程第一步:输入至乐谱生成系统中的信号为任意的音频数据,通过训练完成的文本识别模型,获得音频数据包含的各文本信息,以及各文本信息对应的时间信息。
157.应用模块执行流程第二步:对输入的音频数据,进行帧级别的基频序列的提取。
158.应用模块执行流程第三步:将帧级别的音频数据对应的歌声特征、通过线上使用流程第一步获得的各时间信息,以及通过线上使用流程第二步获得的基频序列输入至完成训练的音符识别模型,从而获得各时间信息内音频数据包含的音符数据。
159.应用模块执行流程第四步:根据各时间信息内的音符数量以及音高信息,输出带有文本信息的乐谱数据。
160.示例性设备
161.在介绍了本公开示例性实施方式的方法之后,接下来对本公开示例性实施方式的乐谱生成装置进行介绍。
162.如图8所示,为本公开实施例提供的乐谱生成装置的结构示意图。在一个实施例中,乐谱生成装置80包括:第一识别模块801、第二识别模块802、生成模块803、处理模块804和训练模块805。
163.第一识别模块801,用于对音频数据进行文本识别,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息,其中,每个文本信息包含至少一个文本字符,各时间信息表征包含有对应的文本信息的音频区间在所述音频数据中所占的时间段信息;
164.第二识别模块802,用于基于已训练的音符识别模型,以所述音频数据对应的音频特征和各时间信息为输入参数,分别确定所述各时间信息内所述音频数据包含的音符数据;
165.生成模块803,用于基于确定出的各音符数据和各文本信息,生成所述音频数据对
应的乐谱数据。
166.可选的,所述第一识别模块801还用于:
167.基于已训练的文本识别模型,以所述音频数据为输入参数,分别确定所述音频数据中,各音频帧对应的文本信息,并基于所述各音频帧对应的文本信息,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息;
168.其中,所述音频数据至少包括各音频帧,所述文本识别模型为根据各音频数据样本和对应的文本信息标签通过迭代训练获得的。
169.可选的,所述音频特征至少包括基频序列和歌声特征,所述分别确定所述各时间信息内所述音频数据包含的音符数据时,所述第二识别模块802还用于:
170.基于所述基频序列和所述歌声特征,分别确定所述音频数据中包括的各音频帧对应的音符数据;
171.基于所述各音频帧对应的音符数据,分别确定所述各时间信息内所述音频数据包含的音符数据。
172.可选的,所述方法还包括处理模块804,所述处理模块804用于:
173.对所述音频数据进行分帧,获得所述音频数据包含的各音频帧;
174.分别确定所述各音频帧对应的基频特征;
175.生成包含有各基频特征的基频序列。
176.可选的,所述生成模块803还用于:
177.分别确定所述各时间信息内所述音频数据包含的音符数据对应的音高信息;
178.基于各音高信息和各文本信息,生成所述音频数据对应的乐谱数据。
179.可选的,所述分别确定所述各时间信息内所述音频数据包含的音符数据对应的音高信息时,所述生成模块803还用于:
180.针对所述各时间信息,分别执行以下操作:
181.若确定任意一时间信息内,所述音频数据包含的音符数据中音符的总数目为1,则确定对应的文本信息与所述音符数据匹配,将所述音符数据对应的音高信息作为所述时间信息内所述音频数据包含的音符数据对应的音高信息;
182.若确定所述总数目大于1,则将所述音符数据包含的各音符中,除预设位置的音符以外的各音符作为所述预设位置的音符的延音符,并基于所述预设位置的音符对应的音高信息和各延音符对应的音高信息,获得所述音频数据包含的音符数据对应的音高信息。
183.可选的,所述装置还包括训练模块805,所述训练模块805用于:
184.获得音频样本集,其中,所述音频样本集包含各音频数据样本、每个音频数据样本标记有各时间信息样本,以及各时间信息样本对应的音符标签;
185.分别对各音频数据样本进行特征提取,获得各音频数据样本对应的音频样本特征;
186.分别将所述音频样本特征和相应的各时间信息样本输入至初始的音符识别模型,确定各音频数据样本包含的各初始音符,并基于各初始音符和各音符标签,调整初始的音符识别模型的各项模型参数,直至所述初始的音符识别模型的损失函数收敛,获得训练完成的音符识别模型。
187.本公开实施例提供的乐谱生成装置,与上述乐谱生成方法采用了相同的发明构
思,能够取得相同的有益效果,在此不再赘述。
188.基于与上述乐谱生成方法相同的发明构思,本公开实施例还提供了一种电子设备。如图9所示,该电子设备90可以包括处理器901和存储器902。
189.处理器901可以是通用处理器,例如中央处理器(cpu)、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本公开实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
190.存储器902作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本公开实施例中的存储器902还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
191.示例性程序产品
192.本公开实施例提供了一种计算机可读存储介质,用于储存为上述电子设备所用的计算机程序指令,其包含用于执行本公开任一示例性实施方式中的乐谱生成方法的程序。
193.上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等。
194.在一些可能的实施方式中,本公开的各个方面还可以实现为一种计算机程序产品,其包括程序代码,当该计算机程序产品在服务器设备上运行时,该计算机程序产品用于使服务器设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的乐谱生成方法中的步骤。
195.所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
196.根据本公开的实施方式的用于即时通信应用的计算机程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在服务器设备上运行。然而,本公开
的程序产品不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
197.可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
198.可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、rf等等,或者上述的任意合适的组合。
199.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
200.应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
201.此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
202.虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

技术特征:
1.一种乐谱生成方法,其特征在于,包括:对音频数据进行文本识别,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息,其中,每个文本信息包含至少一个文本字符,各时间信息表征包含有对应的文本信息的音频区间在所述音频数据中所占的时间段信息;基于已训练的音符识别模型,以所述音频数据对应的音频特征和各时间信息为输入参数,分别确定所述各时间信息内所述音频数据包含的音符数据;基于确定出的各音符数据和各文本信息,生成所述音频数据对应的乐谱数据。2.如权利要求1所述的方法,其特征在于,所述对音频数据进行文本识别,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息,包括:基于已训练的文本识别模型,以所述音频数据为输入参数,分别确定所述音频数据中,各音频帧对应的文本信息,并基于所述各音频帧对应的文本信息,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息;其中,所述音频数据至少包括各音频帧,所述文本识别模型为根据各音频数据样本和对应的文本信息标签通过迭代训练获得的。3.如权利要求1所述的方法,其特征在于,所述音频特征至少包括基频序列和歌声特征,所述分别确定所述各时间信息内所述音频数据包含的音符数据,包括:基于所述基频序列和所述歌声特征,分别确定所述音频数据中包括的各音频帧对应的音符数据;基于所述各音频帧对应的音符数据,分别确定所述各时间信息内所述音频数据包含的音符数据。4.如权利要求3所述的方法,其特征在于,所述方法还包括:对所述音频数据进行分帧,获得所述音频数据包含的各音频帧;分别确定所述各音频帧对应的基频特征;生成包含有各基频特征的基频序列。5.如权利要求1所述的方法,其特征在于,所述基于确定出的各音符数据和各文本信息,生成所述音频数据对应的乐谱数据,包括:分别确定所述各时间信息内所述音频数据包含的音符数据对应的音高信息;基于各音高信息和各文本信息,生成所述音频数据对应的乐谱数据。6.如权利要求5所述的方法,其特征在于,所述分别确定所述各时间信息内所述音频数据包含的音符数据对应的音高信息,包括:针对所述各时间信息,分别执行以下操作:若确定任意一时间信息内,所述音频数据包含的音符数据中音符的总数目为1,则确定对应的文本信息与所述音符数据匹配,将所述音符数据对应的音高信息作为所述时间信息内所述音频数据包含的音符数据对应的音高信息;若确定所述总数目大于1,则将所述音符数据包含的各音符中,除预设位置的音符以外的各音符作为所述预设位置的音符的延音符,并基于所述预设位置的音符对应的音高信息和各延音符对应的音高信息,获得所述音频数据包含的音符数据对应的音高信息。7.如权利要求1-6任一项所述的方法,其特征在于,所述音符识别模型的训练方式为:获得音频样本集,其中,所述音频样本集包含各音频数据样本、每个音频数据样本标记
有各时间信息样本,以及各时间信息样本对应的音符标签;分别对各音频数据样本进行特征提取,获得各音频数据样本对应的音频样本特征;分别将所述音频样本特征和相应的各时间信息样本输入至初始的音符识别模型,确定各音频数据样本包含的各初始音符,并基于各初始音符和各音符标签,调整初始的音符识别模型的各项模型参数,直至所述初始的音符识别模型的损失函数收敛,获得训练完成的音符识别模型。8.一种乐谱生成装置,其特征在于,包括:第一识别模块,用于对音频数据进行文本识别,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息,其中,每个文本信息包含至少一个文本字符,各时间信息表征包含有对应的文本信息的音频区间在所述音频数据中所占的时间段信息;第二识别模块,用于基于已训练的音符识别模型,以所述音频数据对应的音频特征和各时间信息为输入参数,分别确定所述各时间信息内所述音频数据包含的音符数据;生成模块,用于基于确定出的各音符数据和各文本信息,生成所述音频数据对应的乐谱数据。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。

技术总结
本公开涉及语音处理技术领域,尤其涉及一种乐谱生成方法、装置、电子设备和存储介质,对音频数据进行文本识别,确定所述音频数据包含的各文本信息,以及所述各文本信息对应的时间信息,其中,每个文本信息包含至少一个文本字符,各时间信息表征包含有对应的文本信息的音频区间在所述音频数据中所占的时间段信息;基于已训练的音符识别模型,以所述音频数据对应的音频特征和各时间信息为输入参数,分别确定所述各时间信息内所述音频数据包含的音符数据;基于确定出的各音符数据和各文本信息,生成所述音频数据对应的乐谱数据。这样,能够提高乐谱的丰富程度和完整程度。高乐谱的丰富程度和完整程度。高乐谱的丰富程度和完整程度。


技术研发人员:ꢀ(74)专利代理机构
受保护的技术使用者:杭州网易云音乐科技有限公司
技术研发日:2022.07.01
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8747.html

最新回复(0)