1.本公开涉及语音处理技术领域,尤其涉及一种音频处理方法、装置、介质及电子设备。
背景技术:2.随着无线通讯技术的发展,线上会议、线上教学,以及线上办公越来越常态化。在线上会议等情境的语音通话中,用户经常处于仅收听音频而不说话的状态,在这种状态下耳机仍然用与在说话时的相同的上行编码码率进行编码并进行无线传输,占用无线传输的带宽。
3.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:4.本公开提供一种音频处理方法、装置、介质及电子设备,旨在将耳机的传输带宽进行合理分配,从而提高耳机的资源利用率。
5.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
6.根据本公开的第一方面,提供一种音频处理方法,包括:检测当前上行音频信号是否为语音信号;若上述上行音频信号为语音信号,则根据上述上行音频信号的音频能量值,调整上述上行音频信号对应的编码参数;上述编码参数包括采样率以及编码率。
7.根据本公开的第二方面,提供一种音频处理装置,包括:检测模块:用于检测当前上行音频信号是否为语音信号;
8.第一调整模块:用于在上述上行音频信号为语音信号的情况下,根据上述上行音频信号的音频能量值,调整上述上行音频信号对应的编码参数。
9.根据本公开的第三方面,提供一种电子设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述实施例中的音频处理方法。
10.根据本公开的第四方面,提供一种可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现如上述实施例中的音频处理方法。
11.本公开实施例提供的技术方案可以包括以下有益效果:
12.在本公开的一些实施例所提供的技术方案中,检测当前上行音频信号是否为语音信号;若上述上行音频信号为语音信号,则根据上述上行音频信号的音频能量值,调整上述上行音频信号对应的编码参数。通过上述步骤,实现了在用户说话时,检测是否存在语音信号以及根据当前用户所发出语音信号的能量值,调整上述语音对应的编码参数,能够将耳机的传输带宽进行合理分配,提高了耳机资源的利用率,降低了耳机传输音频所需要的功耗,延长了耳机的续航时间,以及提高了耳机所传输音频的质量。
13.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
14.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
15.图1示意性示出了可以应用本公开一实施例的音频处理方法的示例性应用场景的示意图;
16.图2示意性示出了根据本公开示例性的实施例中音频处理方法的流程示意图;
17.图3示意性示出了根据本公开示例性的实施例中调整编码参数的流程示意图;
18.图4示意性示出了根据本公开另一示例性的实施例中调整编码参数的流程示意图;
19.图5示意性示出根据本公开示例性的实施例中控制降噪控件的流程示意图;
20.图6示意性示出了根据本公开再一示例性的实施例中调整编码参数的流程示意图;
21.图7示意性示出了根据本公开示例性的实施例中控制信号发送的流程示意图;
22.图8示意性示出了根据本公开示例性的实施例中音频处理装置的结构图;
23.图9示意性示出了根据本公开示例性的实施例中电子设备的结构图。
具体实施方式
24.为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施例方式作进一步地详细描述。
25.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
26.在本公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。此外,在本公开的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
27.参考图1,示意性示出了可以应用本公开一实施例的音频处理方法的示例性应用场景的示意图。
28.如图1所示,包括耳机110与用户120。
29.其中,上述耳机110配置有vad(voice activity detection,语音活性检测)模块,用于检测音频信号是否为语音信号。上述耳机110还可以是扬声器、麦克风等用于通讯的设
备,本公开对此不作限制。
30.示例性的,耳机110通过上述语音活性检测模块,检测当前上行音频信号是否为语音信号;若上述上行音频信号为语音信号,则根据上述上行音频信号的音频能量值,调整上述上行音频信号对应的编码参数;若上述上行音频信号不为语音信号,则降低上述上行音频信号对应的编码参数。
31.示例性的,图2示意性示出了根据本公开示例性的实施例中音频处理方法的流程示意图。
32.具体地,参考图2,该图所示音频处理方法包括:
33.s210,检测当前上行音频信号是否为语音信号。
34.在示例性的实施例中,耳机110通过语音活性检测模块,检测上述当前上行音频信号是否为语音信号。其中,上述上行音频信号指的是需要通过耳机110进行上传的音频信号,例如通过耳机110进行编码并通过无线传输的上行数据。上述语音活性检测模块的检测周期可以由用户120进行设置。
35.s220,若上行音频信号为语音信号,则根据上行音频信号的音频能量值,调整上行音频信号对应的编码参数。
36.在示例性的实施例中,上述音频能量值指的是上述上传音频信号在预设时间段内的能量之和,上述预设时间段的单位可以是秒、毫秒,或分钟。上述调整是指将上述音频信号对应的编码参数进行修改,以使编码参数与上行音频信号相适应。若上述上行音频信号为语音信号,则耳机110根据上行音频信号的音频能量值,调整上行音频信号对应的编码参数。其中,上述编码参数包括但不限于:采样率与编码率。
37.示例性的,可以对上述音频能量值进行能量等级划分,进一步将各个不同能量等级对应于不同的编码参数。根据不同能量等级分别对应的采样率与编码率,以及上述音频能量值所属的能量等级,调整上述音频信号的采样率以及编码率。
38.在图2所示实施例提供的技术方案中,检测当前上行音频信号是否为语音信号;若上述上行音频信号为语音信号,则根据上述上行音频信号的音频能量值,调整上述上行音频信号对应的编码参数。通过上述步骤,实现了在用户说话时,检测是否存在语音信号以及根据当前用户所发出语音信号的能量值,调整上述语音对应的编码参数,能够将耳机的传输带宽进行合理分配,提高了耳机资源的利用率,降低了耳机传输音频所需要的功耗,延长了耳机的续航时间,以及提高了耳机所传输音频的质量。
39.以下结合图3至图7所示实施例,对上述图2所示实施例各个步骤的具体实施方式进行详细介绍:
40.示例性的,图3示意性示出了根据本公开示例性的实施例中调整编码参数的流程示意图。
41.具体地,参考图3,该图所示调整编码参数的步骤包括:
42.s310,获取上行音频信号的音频能量值。
43.在示例性的实施例中,耳机110获取上述上行音频信号的音频能量值。
44.s320,判断音频能量值是否大于第一阈值。
45.在示例性的实施例中,耳机110判断上述音频能量值与上述第一阈值的大小关系。若上述音频能量值大于上述第一阈值,执行s330;若上述音频能量值不大于上述第一阈值,
执行s310。
46.s330,根据音频能量值自适应调整上行音频信号对应的采样率以及编码率。
47.在示例性的实施例中,耳机110根据上述音频能量值自适应调整上行音频信号对应的采样率以及编码率。其中,上述自适应调整是指:根据采样率与音频能量值的对应关系调整采样率,并且根据编码率与音频能量值的对应关系调整编码率。示例性的,可以预先设置能量等级与编码参数的对应关系表,在该对应关系表中对上述音频能量值进行能量等级划分,将各个不同能量等级对应于不同的编码参数,即不同能量等级分别对应不同的采样率与编码率。根据上述音频能量值所属的能量等级以及该能量等级对应的编码参数,调整上述音频信号的采样率以及编码率。
48.例如,假设在用户120正常说话时对应的音频能量值被量化后的等级为一级,对应的采样率为40khz,对应的编码率为1411.2kbps。在开会时,用户120提高了讲话的音量,此时用户120的讲话音量对应的音频能量值被量化后的能量等级为3级,查询对应关系表得到对应的采样率为60khz以及编码率为2116.8kbps,则耳机110自动将上述采样率调整为60khz,将上述编码率调整为2116.8kbps。其中,将音频能量值进行量化的方式包括但不限于:首先计算上行音频信号对应的音频能量值,再将音频能量值除以预设的单位音频能量值,得到上述音频能量等级。
49.在图3所示实施例提供的技术方案中,获取上行音频信号的音频能量值,判断上述音频能量值是否大于第一阈值;根据上述音频能量值,自适应调整上行音频信号对应的采样率以及编码率。通过上述步骤,可以根据音频能量值所属的能量等级,自适应调整音频信号对应的采样率和编码率,在音频能量值高的情况下将采样率和编码率提高,从而实现高质量的语音通话,并且降低耳机的功耗。
50.示例性的,图4示意性示出了根据本公开另一示例性的实施例中调整编码参数的流程示意图,可以作为s330的具体实施方式。
51.具体地,参考图4,该图所示调整编码参数的步骤包括:
52.s410,确定音频能量值的能量等级。
53.在示例性的实施例中,耳机110获取上述音频能量值所属的能量等级。其中,上述能量等级可以是线性的、非线性的,或是遵循某个分段函数的能量等级。
54.s420,根据能量等级与编码参数的对应关系,确定上行音频信号对应的采样率以及编码率。
55.在示例性的实施例中,耳机110根据上述能量等级与上述编码参数的对应关系,确定上行音频信号对应的采样率以及编码率。
56.示例性的,耳机110可以对上述音频能量值进行能量等级划分,再根据不同能量等级分别对应的采样率与编码率,以及上述音频能量值所属的能量等级,调整上述音频信号的采样率以及编码率。
57.例如,假设在用户120正常说话时对应的语音能量等级为2级,对应的采样率为40khz,对应的编码率为1411.2kbps。在开会时,用户120讲了100秒语音,耳机110对上述100秒语音进行能量分析,得出上述100秒语音对应的能量等级为3级,则将上述采样率调整为60khz,将上述编码率调整为2116.8kbps。
58.在图4所示实施例提供的技术方案中,首先确定音频能量值的能量等级,再根据能
量等级与编码参数的对应关系,确定上行音频信号对应的采样率以及编码率。通过上述步骤,可以根据音频能量值所属的能量等级,自适应调整音频信号对应的采样率和编码率,从而实现高质量的语音通话,并且降低耳机的功耗。
59.在示例性的实施例中,图5示意性示出根据本公开示例性的实施例中控制降噪控件的流程示意图。
60.参考图5,该图所示控制降噪控件的流程包括:
61.s510,若上行音频信号为语音信号,则开启降噪控件。
62.在示例性的实施例中,若耳机110检测到上述音频信号为语音信号,则开启上述降噪控件。其中,上述降噪控件可以配置于上述耳机110内部或耳机110的表面。
63.示例性的,上述降噪控件包括但不限于:anc(active noise control,主动降噪)控件、enc(environmental noise cancellation,环境降噪技术)控件、dsp(digital signal processing数字信号处理)降噪控件,以及cvc(clear voice capture,通话软件降噪)控件。
64.其中,anc的工作原理是麦克风收集外部的环境噪音,然后系统变换为一个反相的声波加到喇叭端,最终人耳听到的声音是:环境噪音+反相的环境噪音。enc能有效抑制90%的反向环境噪声,由此降低环境噪声最高可达35db以上,让游戏玩家可以更加自由的语音沟通。通过双麦克风阵列,精准计算通话者说话的方位,在保护主方向目标语音的同时,去除环境中的各种干扰噪声。dsp主要是针对高、低频噪声。工作原理是麦克风收集外部环境噪音,然后系统复制一个与外界环境噪音相等的反向声波,将噪音抵消,从而达到更好的降噪效果。cvc主要针对通话过程中产生的回声。通过全双工麦克风消噪软件,提供通话的回声和环境噪音消除功能,是目前蓝牙通话耳机中最先进的降噪。
65.s520,若上行音频信号不为语音信号,则根据当前环境噪声能量降低或关闭降噪控件。
66.在示例性的实施例中,若耳机110检测到上述音频信号不为语音信号,则根据当前环境噪声能量降低或关闭上述降噪控件。
67.其中,耳机110可以将降噪控件的降噪等级降低至预设等级,上述降噪等级有多个等级,不同降噪等级对应不同的降噪功率。
68.示例性的,上述降噪控件可以根据当前环境噪声能量的大小,自适应选择与当前环境噪声匹配的降噪等级进行降噪。
69.通过上述步骤,可以进一步降低耳机降噪的功耗。
70.示例性的,用户120可以通过触控方式,手动控制上述降噪控件的开启或关闭。
71.图5所示实施例所提供的技术方案,通过vad模块判断上行音频信号是否为语音信号,在上行音频信号为语音信号的情况下,开启降噪控件;在上行音频信号不为语音信号的情况下,根据当前环境噪声能量降低或关闭降噪控件。通过上述步骤,可以在用户说话时开启降噪控件,在用户没有说话时关闭降噪控件,能够进一步节约耳机的功耗。
72.示例性的,图6示意性示出了根据本公开再一示例性的实施例中调整编码参数的流程示意图。
73.参考图6,在s610中,检测当前上行音频信号是否为语音信号。
74.在示例性的实施例中,s610的具体实施方式与s210相同,在此不再赘述。
75.在s620中,若上行音频信号为语音信号,则获取上行音频信号的音频能量值。
76.在示例性的实施例中,s620的具体实施方式与s220相同,在此不再赘述。
77.在s620’中,若上行音频信号不为语音信号,则降低上行音频信号对应的编码参数至预设阈值。
78.在示例性的实施例中,若上述语音活性检测模块检测到上述上行音频信号不为语音信号,则耳机110降低上述上行音频信号对应的编码参数至预设阈值。其中,上述预设阈值可以由用户120预先在耳机110中进行设置,设置预设阈值的方式包括但不限于:语音设置或触控设置。
79.示例性的,上述降低是指将编码参数对应的频率进行减小,例如初始编码参数对应的频率为40khz,则可将上述编码参数降低至20khz。
80.例如,在耳机110成功建立通信刚开始的10秒,对上行音频信号的采样率与编码率为正常值,即耳机110建立通信的初始10秒内,默认上述音频信号为语音。当上述语音活性检测模块检测到上述音频信号不是语音信号时,耳机110将上述上行音频信号对应的采样率以及编码率进行降低。
81.示例性的,当用户120确定自己不需要进行讲话时,可以将上述语音活性检测模块关闭,并且可以将耳机的采样模块与编码模块关闭,从而进一步减小耳机110的功耗。
82.在s630中,根据音频能量值,调整上行音频信号对应的编码参数。
83.在示例性的实施例中,s630的具体实施方式与s230相同,在此不再赘述。
84.在s630’中,基于降低后的采样率对上行音频信号进行采样,并且基于降低后的编码率对上行音频信号进行编码。
85.耳机110基于降低后的采样率对上行音频信号进行采样,并且基于降低后的编码率对上行音频信号进行编码。
86.通过上述方案,可以降低耳机110的功耗,并且节约对音频进行编码占用的耳机110的资源。
87.图6所示实施例提供的技术方案,首先检测当前上行音频信号是否为语音信号,若上述上行音频信号为语音信号,则获取上行音频信号的音频能量值,再根据音频能量值,调整上行音频信号对应的编码参数;若上行音频信号不为语音信号,则降低上行音频信号对应的采样率以及编码率,再基于降低后的采样率对上行音频信号进行采样,并且基于降低后的编码率对上行音频信号进行编码。通过上述方案,实现了根据上行音频信号是否为语音信号,将采样率与编码率调节至合适的范围,进一步降低了耳机的功耗,调整了耳机的资源分配,并且提高了用户的通话效果。
88.在示例性的实施例中,图7示意性示出了根据本公开示例性的实施例中控制信号发送的流程示意图,可以作为上述任一实施例的具体实施方式。
89.参考图7,上述控制信号发送的流程包括:
90.s710,在发送上行音频信号的过程中,获取耳机当前的资源占用率。
91.在示例性的实施例中,在发送上行音频信号的过程中,耳机110实时获取自身当前的资源占用率。其中,上述资源占用率包括但不限于:处理器的算力占用率与缓存占用率。
92.s720,判断资源占用率是否达到第二阈值。
93.在示例性的实施例中,耳机110判断上述资源占用率是否达到第二阈值。其中,上
述第二阈值可以由用户120在终端设备进行设置,上述终端设备内置有控制上述耳机110的应用,并且与耳机110通过无线方式进行连接。
94.s730,判断资源占用率是否达到第三阈值。
95.在示例性的实施例中,耳机110判断上述资源占用率是否达到第三阈值。其中,上述第三阈值可以由用户120在上述终端设备进行设置。
96.s740,暂停上行音频信号的发送。
97.在示例性的实施例中,耳机110暂停上行音频信号的发送,并且将上述音频信号进行缓存。
98.s740’,将上行音频信号进行压缩,并且将压缩后的上行音频信号进行发送。
99.在示例性的实施例中,耳机110将上行音频信号进行压缩,并且将压缩后的上述上行音频信号进行发送。
100.示例性的,用户110可以通过上述终端设备控制耳机110暂停,或不暂停发送上述上行音频信号。
101.图7所示实施例提供的技术方案,在发送上行音频信号的过程中,首先获取耳机当前的资源占用率,判断上述资源占用率是否达到第一阈值。在上述资源占用率达到第二阈值的情况下,进一步判断上述资源占用率是否达到第二阈值。在上述资源占用率达到第三阈值的情况下,暂停上述上行音频信号的发送;在上述资源占用率未达到第二阈值的情况下,将上行音频信号进行压缩,并且将压缩后的上行音频信号进行发送。通过上述方案,实现了在耳机资源紧张的情况下将上行音频信号进行压缩后发送。并且实现了在耳机资源紧张的情况下暂停上行音频信号的发送,等到耳机资源不紧张时再继续发送上述上行音频信号,解决了由于耳机资源紧张导致的丢包问题,提高了用户的通话效果。
102.在示例性的实施例中,作为上述任一实施例的具体实施方式,在检测当前上行音频信号是否为语音信号之前,还包括:
103.响应于耳机110成功建立通话,自动初始化vad模块与enc,并且设置初始采样率与初始编码率。其中,用户120可通过上述终端设备查看耳机110的初始化状态,并且通过上述终端设备设置上述初始采样率与上述初始编码率。
104.通过上述方案,使得对耳机的初始化更加可视化,提升了对耳机进行控制的便携性。
105.在示例性的实施例中,本公开还提供另一示例性的实施例中音频处理方法,具体包括:
106.1、当开始通话时,耳机110默认开启enc,并且设置正常的采样率和编码率,然后初始化vad模块。
107.2、在通话建立后一段指定时间内,耳机110默认上行音频信号处于有语音的状态,此时音频信号的编码参数为正常参数,enc也默认开启。该段时间过后,启动vad的实时语音检测。
108.3、vad实时检测当前上行音频是否为语音。
109.4、判断当前用户是否存在语音输出,即上行音频信号是否为有效语音数据,如果为有效数据,执行第6部分。
110.5、判断当前用户是否存在语音输出,即上行音频信号是否有效语音数据,如果vad
在一段连续时间内都没有检测到有效语音,执行第7部分;
111.6、enc开启,编码参数设置为正常参数,不断发送上行数据,若检测到当前语音能量高于阈值,则自适应调整采样率以及编码码率,提供高质量的语音音频输出,继续执行第3部分。
112.7、关闭enc,将编码码率降低,缩小发送的数据包,若当前耳机资源紧张可以(暂停/等待)语音数据包的发送。
113.通过上述方案,可以实时检测用户是否有语音输出,当无语音输出时能有效节约耳机的资源及功耗,提升性能表现,同时在有语音输出时也能提供高质量的语音数据。
114.上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
115.下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
116.其中,图8示意性示出了根据本公开示例性的实施例中音频处理装置的结构图。请参见图8,该图所示的音频处理装置800包括:检测模块810以及第一调整模块820。
117.具体地,上述检测模块810,用于检测当前上行音频信号是否为语音信号。
118.上述第一调整模块820,用于在上述上行音频信号为语音信号的情况下,根据上述上行音频信号的音频能量值,调整上述上行音频信号对应的编码参数。
119.在示例性的实施例中,基于前述方案,上述第一调整模块820还用于:获取上述上行音频信号的音频能量值;在上述音频能量值大于第一阈值的情况下,根据上述音频能量值自适应调整上述上行音频信号对应的采样率以及编码率。
120.在示例性的实施例中,基于前述方案,上述第一调整模块820还用于:确定上述音频能量值的能量等级;根据上述能量等级与上述编码参数的对应关系,确定上述上行音频信号对应的采样率以及编码率。
121.在示例性的实施例中,基于前述方案,上述音频处理装置800还包括控制模块,用于:若上述上行音频信号为语音信号,则开启上述降噪控件;若上述上行音频信号不为语音信号,则根据当前环境噪声能量降低或关闭上述降噪控件。
122.在示例性的实施例中,基于前述方案,上述音频处理装置800还包括第二调整模块,用于:若上述上行音频信号不为语音信号,则降低上述上行音频信号对应的编码参数至预设阈值。
123.在示例性的实施例中,基于前述方案,上述音频处理装置800还包括编码模块,用于:基于降低后的采样率对上述上行音频信号进行采样,并且基于降低后的编码率对上述上行音频信号进行编码。
124.在示例性的实施例中,基于前述方案,上述音频处理装置800还包括发送模块,用于:在发送上述上行音频信号的过程中,获取上述耳机当前的资源占用率;在上述资源占用率达到第二阈值的情况下,将上述上行音频信号进行压缩,并且将压缩后的上行音频信号进行发送;在上述资源占用率达到第三阈值的情况下,暂停上述上行音频信号的发送。
125.需要说明的是,上述实施例提供的音频处理装置在执行音频处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思,
因此对于本公开装置实施例中未披露的细节,请参照本公开上述的音频处理方法的实施例,这里不再赘述。
126.上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
127.本公开实施例还提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例方法的步骤。其中,可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、dvd(digital video disc,数字视频光盘)、cd-rom(compact disc read-only memory,只读光盘)、微型驱动器以及磁光盘、rom(read-only memory,只读存储器)、ram(random access memory,随机存取存储器)、eprom(erasable programmable read-only memory,可擦除可编程只读存储器)、eeprom(electrically erasable programmable read only memory,带电可擦可编程只读存储器)、dram(dynamic random access memory,动态随机存取存储器)、vram(video ram,影像随机接达记忆器)、闪速存储器设备、磁卡或光卡、纳米系统,或适合于存储指令和/或数据的任何类型的媒介或设备。
128.本公开实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。
129.图9示意性示出了根据本公开一示例性的实施例中电子设备的结构图。请参见图9所示,电子设备900包括有:处理器910和存储器920。
130.本公开实施例中,处理器910为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。处理器910可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器910可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器910也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
131.在本公开实施例中,上述处理器910具体用于:
132.检测当前上行音频信号是否为语音信号;
133.若上述上行音频信号为语音信号,则根据上述上行音频信号的音频能量值,调整上述上行音频信号对应的编码参数。
134.进一步地,上述根据上述上行音频信号的音频能量值,调整上述上行音频信号对应的编码参数,包括:获取上述上行音频信号的音频能量值;在上述音频能量值大于第一阈值的情况下,根据上述音频能量值自适应调整上述上行音频信号对应的采样率以及编码率。
135.进一步地,上述根据上述音频能量值自适应调整上述上行音频信号对应的采样率以及编码率包括:确定上述音频能量值的能量等级;根据上述能量等级与上述编码参数的对应关系,确定上述上行音频信号对应的采样率以及编码率。
136.进一步地,上述方法还包括:若上述上行音频信号为语音信号,则开启上述降噪控件;若上述上行音频信号不为语音信号,则根据当前环境噪声能量降低或关闭上述降噪控件。
137.进一步地,上述方法还包括:若上述上行音频信号不为语音信号,则降低上述上行音频信号对应的编码参数至预设阈值。
138.进一步地,上述方法还包括:基于降低后的采样率对上述上行音频信号进行采样,并且基于降低后的编码率对上述上行音频信号进行编码。
139.进一步地,上述方法还包括:在发送上述上行音频信号的过程中,获取上述耳机当前的资源占用率;在上述资源占用率达到第二阈值的情况下,将上述上行音频信号进行压缩,并且将压缩后的上行音频信号进行发送;在上述资源占用率达到第三阈值的情况下,暂停上述上行音频信号的发送。
140.存储器920可以包括一个或多个可读存储介质,该可读存储介质可以是非暂态的。存储器920还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在本公开的一些实施例中,存储器920中的非暂态的可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器910所执行以实现本公开实施例中的方法。
141.一些实施例中,电子设备900还包括有:外围设备接口930和至少一个外围设备。处理器910、存储器920和外围设备接口930之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口930相连。具体地,外围设备包括:显示屏940、摄像头950和音频电路960中的至少一种。
142.外围设备接口930可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器910和存储器920。在本公开的一些实施例中,处理器910、存储器920和外围设备接口930被集成在同一芯片或电路板上;在本公开的一些其他实施例中,处理器910、存储器920和外围设备接口930中的任意一个或两个可以在单独的芯片或电路板上实现。本公开实施例对此不作具体限定。
143.降噪控件940用于降低环境噪声,并且将语音从环境噪声中提取出来。
144.语音活性检测模块950用于检测用户是否发出语音。
145.本公开实施例中示出的终端结构框图并不构成对电子设备900的限定,电子设备900可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
146.在本公开中,术语“第一”、“第二”等仅用于描述的目的,而不能理解为指示或暗示相对重要性或顺序;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
147.本公开的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本公开的限制。
148.以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,依本公开权利要求所作的等同变化,仍属本公开所涵盖的范围。
技术特征:1.一种音频处理方法,其特征在于,应用于耳机,所述方法包括:检测当前上行音频信号是否为语音信号;若所述上行音频信号为语音信号,则根据所述上行音频信号的音频能量值,调整所述上行音频信号对应的编码参数;所述编码参数包括采样率以及编码率。2.根据权利要求1所述的音频处理方法,其特征在于,所述根据所述上行音频信号的音频能量值,调整所述上行音频信号对应的编码参数,包括:获取所述上行音频信号的音频能量值;在所述音频能量值大于第一阈值的情况下,根据所述音频能量值自适应调整所述上行音频信号对应的采样率以及编码率。3.根据权利要求2所述的音频处理方法,其特征在于,所述根据所述音频能量值自适应调整所述上行音频信号对应的采样率以及编码率包括:确定所述音频能量值的能量等级;根据所述能量等级与所述编码参数的对应关系,确定所述上行音频信号对应的采样率以及编码率。4.根据权利要求1所述的音频处理方法,其特征在于,所述方法还包括:若所述上行音频信号不为语音信号,则降低所述上行音频信号对应的编码参数至预设阈值。5.根据权利要求1所述的音频处理方法,其特征在于,所述耳机还配置有降噪控件,所述方法还包括:若所述上行音频信号为语音信号,则开启所述降噪控件;若所述上行音频信号不为语音信号,则根据当前环境噪声能量降低或关闭所述降噪控件。6.根据权利要求1-5任一项所述的音频处理方法,其特征在于,所述方法还包括:在发送所述上行音频信号的过程中,获取所述耳机当前的资源占用率;在所述资源占用率达到第二阈值的情况下,将所述上行音频信号进行压缩,并且将压缩后的上行音频信号进行发送;在所述资源占用率达到第三阈值的情况下,暂停所述上行音频信号的发送。7.一种音频处理装置,其特征在于,应用于耳机,所述耳机配置有语音活性检测模块,包括:检测模块:用于检测当前上行音频信号是否为语音信号;第一调整模块:用于在所述上行音频信号为语音信号的情况下,根据所述上行音频信号的音频能量值,调整所述上行音频信号对应的编码参数。8.根据权利要求7所述的音频处理装置,其特征在于,还包括:第二调整模块:用于在所述上行音频信号不为语音信号的情况下,降低所述上行音频信号对应的编码参数至预设阈值。9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的音频处理方法。10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理
器执行时实现如权利要求1至6中任一项所述的音频处理方法。
技术总结本公开实施例提供了一种音频处理方法、装置、介质及电子设备,涉及语音处理技术领域。其中该方法应用于耳机,包括如下步骤:检测当前上行音频信号是否为语音信号;若上行音频信号为语音信号,则根据上行音频信号的音频能量值,调整上行音频信号对应的编码参数;上述编码参数包括采样率以及编码率。通过本方案,可以在用户说话时,根据当前用户所发出语音的能量值,调整上述语音对应的编码参数,从而基于上述编码参数对语音进行编码,实现将耳机的传输带宽进行合理分配,从而提高耳机的资源利用率。率。率。
技术研发人员:冯兆熙
受保护的技术使用者:安克创新科技股份有限公司
技术研发日:2022.06.24
技术公布日:2022/11/1