音视频处理方法、装置、存储介质以及终端与流程

专利2025-06-15 61

本申请涉及计算机，尤其涉及一种音视频处理方法、装置、存储介质以及终端。

背景技术：

1、目前，音视频交互功能已经广泛应用于线上会议、教育课堂等多种场景，在音视频交互场景中，交互双方的终端在通过扬声器和显示屏播放远程终端用户音视频的同时，还通过麦克风和摄像头采集本地终端用户的音视频。

2、然而，由于声波具有反射传播的特性，远端音频信号通过本地端的扬声器播放之后，会在空间内经过多次反射，然后被本地端的麦克风采集进去，因此，本地端麦克风采集到的音频数据中不仅包含本地端用户的音频数据、还包括造成干扰的回声数据。如果对本地端采集到的音视频不做回声消除处理，那么远端播放本地端音视频时这些回声噪音会妨碍远端用户对音视频中重要信息的接收和理解，导致用户的交互体验差。

技术实现思路

1、本申请提供一种音视频处理方法、装置、存储介质以及终端，可以解决相关技术中对音视频的回声处理效果不佳导致音视频质量差的技术问题。

2、第一方面，本申请实施例提供一种音视频处理方法，该方法包括：

3、采集当前场景下的音视频数据；

4、识别上述音视频数据对应的音频场景类型，以及确定上述音频场景类型对应的回声消除策略；

5、按照上述回声消除策略对上述音视频数据进行回声消除处理，将处理后的上述音视频数据传输至目标播放终端，以使得上述目标播放终端播放处理后的上述音视频数据。

6、通过上述第一方面的技术方案带来的有益效果至少包括：音视频数据所在场景信息在一定程度上决定了其对应的音频处理需求，那么根据音视频数据所属的具体场景类型，适应性地使用该场景类型对应的回声处理策略，能够使得每个音视频都能得到针对性的回声处理方案，提高了回声消除的准确性和稳定性，提升了终端对多样化场景下的音视频进行回声消除的能力。

7、在一些可能的实现方式中，上述识别上述音视频数据对应的音频场景类型，包括：若存在至少一条可用的场景分类规则，则根据上述音视频数据的当前特征判断是否存在上述音视频数据命中的目标场景分类规则，上述场景分类规则中规定了音视频数据的至少一种特征与至少一种音频场景类型的对应关系；若存在上述目标场景分类规则，则根据上述目标场景分类规则确定上述音视频数据对应的音频场景类型。

8、通过上述可能的实现方式中的技术方案，可以基于定义好的场景分类规则，判断当前的音视频数据是否命中了场景分类规则，若命中则直接按照场景分类规则来确定该音视频数据对应的音频场景类型。这样可以根据需求来将一些具有特定特征的音视频数据确定为特定的场景类型，实现更灵活的音视频处理方案，增强了在实际场景中的实用性。

9、在一些可能的实现方式中，上述可用的场景分类规则为预先定义的场景分类规则；或者，上述可用的场景分类规则为预先定义且用户基于规则启用控件做出启用操作后的场景分类规则。

10、通过上述可能的实现方式中的技术方案，可用的规则可能是两种情况：一是通过部署后直接就可以使用，或者是规则部署后用户还可以通过控件来控制规则的使用。也就是用户可以基于自身需求，通过操作控件来确定是否要使用规则，从而对音视频数据的场景分类更加个性化且符合用户需求。

11、在一些可能的实现方式中，上述音视频数据的特征包括扬声器开关状态特征、麦克风开关状态特征、画面特征、环境特征中的至少一种。

12、通过上述可能的实现方式中的技术方案，可以在场景分类规则中具体规定视频在具备什么样的特征时处在什么场景，实现场景分类规则对各种音视频数据的灵活应用。

13、在一些可能的实现方式中，上述识别上述音视频数据对应的音频场景类型，包括：将上述音视频数据输入场景分析大模型，确定上述场景分析大模型输出的上述音视频数据对应的音频场景类型。

14、通过上述可能的实现方式中的技术方案，还可以通过预训练好的大模型来高效、准确地分析音视频数据，从而识别出音视频数据的场景类型。

15、在一些可能的实现方式中，上述回声消除策略中规定了针对上述音频场景类型对应的音频处理需求预配置的至少一种回声消除算法。

16、通过上述可能的实现方式中的技术方案，每种音频场景类型所对应的回声消除策略都是根据该场景下的音频处理需求而预配置的，而策略中包括至少一种针对性的回声处理算法，这就使得各音频场景类型对应的回声消除策略都能够准确地解决该场景下的音频回声问题。

17、在一些可能的实现方式中，上述方法还包括：当监测到上述音视频数据的当前特征发生变化时，重新执行上述识别上述音视频数据对应的音频场景类型的步骤。

18、通过上述可能的实现方式中的技术方案，能够根据实时的音视频数据的当前特征，灵活调整回声消除策略，确保传输至目标播放终端的音视频数据的高质量。

19、第二方面，本申请实施例提供一种音视频处理装置，该装置包括：

20、数据采集模块，用于采集当前场景下的音视频数据；

21、场景分析模块，用于识别上述音视频数据对应的音频场景类型，以及确定上述音频场景类型对应的回声消除策略；

22、回声消除模块，用于按照上述回声消除策略对上述音视频数据进行回声消除处理，将处理后的上述音视频数据传输至目标播放终端，以使得上述目标播放终端播放处理后的上述音视频数据。

23、第三方面，本申请实施例提供一种计算机存储介质，上述计算机存储介质存储有多条指令，上述指令适于由处理器加载并执行上述的方法的步骤。

24、第四方面，本申请实施例提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，上述计算机程序适于由处理器加载并执行上述的方法的步骤。

25、第五方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

技术特征：

1.一种音视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述识别所述音视频数据对应的音频场景类型，包括：

3.根据权利要求2所述的方法，其特征在于，所述可用的场景分类规则为预先定义的场景分类规则；

4.根据权利要求2所述的方法，其特征在于，所述音视频数据的特征包括扬声器开关状态特征、麦克风开关状态特征、画面特征、环境特征中的至少一种。

5.根据权利要求1所述的方法，其特征在于，所述识别所述音视频数据对应的音频场景类型，包括：

6.根据权利要求1所述的方法，其特征在于，所述回声消除策略中规定了针对所述音频场景类型对应的音频处理需求预配置的至少一种回声消除算法。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种音视频处理装置，其特征在于，所述装置包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的所述方法的步骤。

10.一种终端，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1～7任一项所述方法的步骤。

技术总结
本申请公开了一种音视频处理方法、装置、存储介质以及终端，应用于计算机技术领域。采集当前场景下的音视频数据；识别音视频数据对应的音频场景类型，以及确定音频场景类型对应的回声消除策略；按照回声消除策略对音视频数据进行回声消除处理，将处理后的音视频数据传输至目标播放终端，以使得目标播放终端播放处理后的音视频数据。音视频数据所在场景信息在一定程度上决定了其对应的音频处理需求，那么根据音视频数据所属的具体场景类型，适应性地使用该场景类型对应的回声处理策略，能够使得每个音视频都能得到针对性的回声处理方案。

技术研发人员：赖大贤,邢登辉,林文烁
受保护的技术使用者：广州开得联智能科技有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-15058.html

专利

最新回复(0)