情境感知音频捕捉和渲染的制作方法

专利2025-07-12 55

本公开总体上涉及音频信号处理，并且更具体地涉及用户生成内容（ugc）的创建和播放。

背景技术：

1、ugc 通常由消费者创建，并且可以包含任何形式的内容（例如图像、视频、文本、音频）。ugc 通常由其创作者发布到在线平台，该在线平台包括但不限于社交媒体、博客、wiki™ 等。与 ugc 相关的一个趋势是通过使用个人移动设备（例如智能手机、平板电脑、可穿戴设备）录制视频和音频，在各种环境（例如室内、室外、海边）中分享个人时刻。由于消费者硬件限制和非专业录制环境，大多数 ugc 内容都包含音频伪影。传统的ugc处理方式是基于音频信号分析或者基于人工智能（ai）的降噪和增强处理。ugc处理中的一个难点是如何在保持内容创作者的创作目标的同时，处理不同音频环境中的不同声音类型。

技术实现思路

1、公开了用于情境感知音频捕捉和渲染的实施例。在一个实施例中，音频处理方法包括：捕捉多通道输入音频信号；对于多通道输入音频信号的每个通道，生成降噪的感兴趣目标声音事件以及环境噪声；确定用于渲染的事件类型；基于事件类型和扬声器布局选择渲染方案；以及使用所选的渲染方案来渲染多通道输出音频信号。

2、在一些实施例中，基于情境信息和目标声音事件对于多通道输入音频信号的每个通道确定事件类型。

3、在一些实施例中，情境信息是由输入音频、输入视频或传感器输入中的至少一者的情境分析生成的。

4、在一些实施例中，使用机器学习模型基于情境信息和目标声音事件将情境信息确定为室内情境或室外情境。

5、在一些实施例中，对于每个声音事件，声音事件类型指示中心渲染事件、环绕渲染事件或高度渲染事件之一，其中，对于中心渲染事件，渲染分布在扬声器布局上以对于目标声音事件在声场中创建实心中心（solid center）位置，并且对于环绕渲染事件，渲染分布在扬声器布局上以提供宽声场，并且对于高度渲染事件，渲染分布在扬声器布局上以突出增强的高度效果。

6、在一些实施例中，扬声器布局包括三个扬声器，包括左扬声器、右扬声器和顶部扬声器，并且其中渲染分布在左扬声器和右扬声器上以提供宽声场，并且分布到顶部扬声器以突出增强的高度效果。

7、在一些实施例中，扬声器布局包括四个扬声器，包括左上扬声器和右上扬声器以及左下扬声器和右下扬声器，其中对于中心渲染事件，渲染分布在所有四个扬声器上，对于环绕渲染事件，渲染分布在左下扬声器和右下扬声器上以提供宽声场，并且对于高度渲染事件，渲染分布在左上扬声器和右上扬声器上以突出增强的高度效果。

8、在一些实施例中，事件类型在捕捉多通道输入音频信号期间被确定，并且事件类型被存储为用于后续渲染中渲染方案选择的元数据。

9、在一些实施例中，元数据的格式取决于多通道输入音频信号的捕捉和渲染是否由同一设备执行。

10、在一些实施例中，该方法还包括：对所渲染的多通道输出音频信号应用均衡化或动态范围控制中的至少一者。

11、在一些实施例中，渲染多通道输出音频信号包括基于事件类型将混合比应用于目标声音事件和环境噪声。

12、在一些实施例中，多通道输出音频信号由包括折叠屏幕的移动设备渲染，并且该方法还包括：通过至少一个处理器确定屏幕是折叠还是展开；并且根据该确定，如果屏幕折叠则选择第一扬声器布局以用于渲染，如果屏幕展开则选择第二扬声器布局，其中第一扬声器布局不同于第二扬声器布局。

13、在一些实施例中，一种音频处理系统包括：一个或多个处理器；以及非暂态计算机可读介质，存储指令，该指令在由该一个或多个处理器执行时，使得该一个或多个处理器执行前述方法中的任一者。

14、在一些实施例中，一种非暂态计算机可读介质存储指令，该指令在由一个或多个处理器执行时，使得该一个或多个处理器执行前述方法中的任一者。

15、本文公开的特定实施例提供了下列优点中的一者或多者。所公开的情境感知音频捕捉和渲染实施例可用于双耳录音以捕捉逼真的双耳声景，同时保持内容创作者的创作目标。

技术特征：

1.一种音频处理方法，包括：

2.根据权利要求1所述的方法，其中，通过事件分类对于多通道输入音频信号的每个目标声音事件确定事件类型。

3.根据权利要求2所述的方法，其中，事件分类是由情境信息操控的。

4.根据权利要求3所述的方法，其中，情境信息是由输入音频、输入视频或传感器输入中的至少一者的情境分析生成的。

5.根据前述任一项权利要求所述的方法，其中使用机器学习模型将情境信息确定为室内情境或室外情境。

6.根据前述权利要求1-5中任一项所述的方法，其中，对于每个目标声音事件，声音事件类型指示中心渲染事件、环绕渲染事件或高度渲染事件之一，其中，对于中心渲染事件，渲染分布在扬声器布局上以对于目标声音事件在声场中创建中心通道位置，并且对于环绕渲染事件，渲染分布在扬声器布局上以提供宽声场，并且对于高度渲染事件，渲染分布在扬声器布局上以突出增强的高度效果。

7.根据前述权利要求1-6中任一项所述的方法，其中扬声器布局包括三个扬声器，包括左扬声器、右扬声器和顶部扬声器，并且其中渲染分布在左扬声器和右扬声器上以提供宽声场，并且分布到顶部扬声器以突出增强的高度效果。

8.根据前述权利要求1-6中任一项所述的方法，其中扬声器布局包括四个扬声器，包括左上扬声器和右上扬声器以及左下扬声器和右下扬声器，其中对于中心渲染事件，渲染分布在所有四个扬声器上，对于环绕渲染事件，渲染分布在左下扬声器和右下扬声器上以提供宽声场，并且对于高度渲染事件，渲染分布在左上扬声器和右上扬声器上以突出增强的高度效果。

9.根据权利要求1所述的方法，其中声音事件类型在捕捉多通道输入音频信号期间被确定，并且存储为用于后续渲染中渲染方案选择的元数据。

10.根据权利要求9所述的方法，其中元数据的格式取决于多通道输入音频信号的捕捉和渲染是否由同一设备执行。

11.根据前述权利要求1至10中任一项所述的方法，还包括：

12.根据前述权利要求1-11中任一项所述的方法，其中渲染多通道输出音频信号包括基于事件类型将混合比应用于目标声音事件和环境噪声。

13.根据前述权利要求1至12中任一项所述的方法，其中，所述多通道输入音频信号由包括折叠屏幕的移动设备渲染，并且所述方法还包括：

14.一种处理音频的系统，包括：

15.一种非暂态计算机可读介质，存储指令，所述指令在由一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1-13中的任一项所述的操作。

技术总结
公开了用于情境感知捕捉和渲染的实施例。在一个实施例中，音频处理方法包括：捕捉多通道输入音频信号；对于多通道输入音频信号的每个通道，生成降噪的感兴趣目标声音事件以及环境噪声；确定用于渲染的事件类型；基于事件类型和扬声器布局选择渲染方案；以及使用所选的渲染方案来渲染多通道输出音频信号。

技术研发人员：马远星,双志伟,刘阳,杨子瑜
受保护的技术使用者：杜比实验室特许公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-15776.html

专利

最新回复(0)