1.本发明涉及音频信号处理,特别涉及空间扩展声源的编码或解码或再现。
背景技术:2.长期以来,人们一直在研究通过多个扬声器或耳机再现声源。在这种设置上再现声源的最简单方法是将它们渲染为点源,即非常(理想情况下:无限)小的声源。然而,这种理论概念很难以现实的方式模拟现有的物理声源。例如,大钢琴有很大的振动木制封闭装置,内部有许多空间分布的琴弦,因此在听觉上看起来比点源大得多(尤其是当听者(和麦克风)靠近大钢琴时。许多真实的世界声源具有相当大的尺寸(“空间范围”),如乐器、机器、管弦乐队或合唱团或环境声音(瀑布的声音)。
3.此类声源的正确/真实再现已成为许多声音再现方法的目标,无论是使用耳机的双耳(即使用所谓的头部相关传递函数hrtf或双耳房间脉冲响应brir)还是传统上使用扬声器设置范围从2个扬声器(“立体声”)到布置在水平面上的多个扬声器(“环绕声”)以及在所有三个维度上围绕听者的多个扬声器(“3d音频”)。
技术实现要素:4.本发明的目的是提供一种用于编码或再现具有可能复杂的几何形状的空间扩展声源的概念。
5.二维源宽度
6.本节描述了与在从听者的角度面对的2d表面上渲染扩展声源有关的方法,例如,在零仰角的某个方位角范围内(如传统立体声/环绕声的情况)或一定范围的方位角和仰角(例如3d音频或虚拟现实中的情况,用户移动具有3个自由度[“3dof”],即头部在俯仰/偏航/滚动轴上的旋转)。
[0007]
可以通过降低参与声道信号的相关性来增加在两个或更多个扬声器之间平移的音频对象的表观宽度(生成所谓的幻像或幻像源)(blauert,2001,s.241-257)。随着相关性的降低,幻象源的传播增加,直到相关值靠近零(并且开口角度不太宽),它覆盖了扬声器之间的整个范围。
[0008]
通过推导和应用合适的去相关滤波器来获得源信号的去相关版本。lauridsen(lauridsen,1954)提出了将源信号的时间延迟和缩放版本添加/减去,以获得信号的两个去相关版本的信号。例如,更复杂的方法由kendall提出(kendall,1995)。他基于随机数序列的组合迭代推导出成对去相关全通滤波器。faller等人在(baumgarte&faller,2003)(faller&baumgarte,2003)中提出合适的去相关滤波器(“扩散器”)。还有zotter等人派生滤波器对,其中频率相关的相位或幅度差异用于实现幻象源的加宽(zotter&frank,2013)。此外,(alary,politis,&2017)提出了基于天鹅绒噪声的去相关滤波器,并由(schlecht,alary,&habets,2018)进一步优化。
[0009]
除了减少幻象源的相应声道信号的相关性之外,还可以通过增加归属于音频对象的幻象源的数量来增加源宽度。在(pulkki,1999)中,源宽度是通过将相同的源信号平移到(稍微)不同的方向来控制的。该方法最初是为了稳定vbap平移(pulkki,1997)源信号在声音场景中移动时的感知幻象源传播而提出的。这是有利的,因为取决于源的方向,渲染的源由两个或更多个扬声器再现,这可能导致感知源宽度的不希望的改变。
[0010]
虚拟世界dirac(pulkki,laitinen,&erkut,2009)是传统定向音频编码(dirac)(pulkki,2007)方法的扩展,用于虚拟世界中的声音合成。为了渲染空间范围,源的定向声音分量在源的原始方向周围的一定范围内随机平移,其中平移方向随时间和频率而变化。
[0011]
(santala,&pulkki,2014)中采用了类似的方法,其中空间范围是通过将源信号的频带随机分布到不同的空间方向来实现的。这是一种旨在产生同样来自所有方向的空间分布和包络的声音,而不是控制精确程度的方法。
[0012]
verron等人通过不使用平移相关信号实现源的空间范围,而是通过合成多个不连贯的源信号的版本,将它们均匀地分布在听者周围的圆圈上,并在它们之间混合(verron、aramaki、kronland-martinet&pallone,2010)。同时激活源的数量和增益决定了加宽效果的强度。此方法被实施为用于环境声音合成器的空间扩展。
[0013]
3d源宽度
[0014]
本节描述与在3d空间中渲染扩展声源有关的方法,即以体积方式,因为它是具有6个自由度(“6dof”)的虚拟现实所必需的。这意味着用户运动的6个自由度,即头部在俯仰/偏航/滚动轴上的旋转)加上3个平移运动方向x/y/z。
[0015]
potard等人通过研究源形状的感知,将源范围的概念扩展为源的一维参数(即两个扬声器之间的宽度)(potard,2003)。他们通过将(时变)去相关技术应用于原始源信号,然后将非相干源放置到不同的空间位置,从而产生多个非相干点源,从而通过这样赋予它们三维范围(potard&burnett,2004)。
[0016]
在mpeg-4advanced audiobifs(schmidt&2004)中,体积对象/形状(包壳、盒子、椭圆体和圆柱体)可以填充几个均匀分布和去相关的声源,以唤起三维声源范围。
[0017]
为了使用ambisonics增加和控制源范围,schmele等人(schmele&sayin,2018)提出了降低输入信号的ambisonics阶数的混合,这本质上会增加表观源宽度,并在收听空间周围分布源信号的去相关副本。
[0018]
zotter等人介绍了另一种方法,他们采用了(zotter&frank,2013)中提出的原则(即,导出滤波器对,引入频率相关的相位和幅度差,以在立体声再现设置中实现源范围)用于ambisonics(zotterf.、frank、kronlachner&choi,2014年)。
[0019]
基于平移的方法(例如,(pulkki,1997)(pulkki,1999)(pulkki,2007)(pulkki,laitinen,&erkut,2009))的常见缺点是它们依赖于听者的位置。即使是与最有效点的微小偏差也会导致空间图像塌陷到最靠近听者的扬声器中。这极大地限制了它们在虚拟现实和具有6自由度(6dof)的增强现实背景中的应用,在这种情况下,听者应该可以自由移动。此外,在基于dirac的方法(例如,(pulkki,2007)(pulkki,laitinen,&erkut,2009))中分配时间频率二进制位并不总能保证正确渲染幻象源的空间范围。此外,它通常会显著降低源信号的音色。
[0020]
源信号的去相关通常通过以下方法之一实现:i)导出具有互补幅度的滤波器对
(例如(lauridsen,1954)),ii)使用具有恒定幅度但(随机)加扰相位的全通滤波器(例如,(kendall,1995)(potard&burnett,2004)),或者iii)在空间上随机分布源信号的时间频率二进制位(例如,(santala,&pulkki,2014))。
[0021]
所有方法都有其自身的含义:根据i)对源信号进行互补滤波通常会导致去相关信号的感知音色发生改变。虽然ii)中的全通滤波保留了源信号的音色,但加扰相位破坏了原始相位关系,并且尤其是对于瞬态信号,会导致严重的时间色散和拖尾伪影。空间分布的时间频率二进制位被证明对某些信号有效,但也会改变信号的感知音色。此外,它表现出高度的信号依赖性,并为脉冲信号引入了严重的伪影。
[0022]
使用advanced audiobifs((schmidt&2004)(potard,2003)(potard&burnett,2004))中提出的源信号的多个去相关版本填充体积形状假设有大量相互产生的滤波器可用去相关的输出信号(通常,每个体积形状使用十多个点源)。然而,找到这样的滤波器并不是一项简单的任务,而且需要的滤波器越多,就越困难。此外,如果源信号没有完全去相关并且听者围绕这样的形状移动,例如,在(虚拟现实)场景中,到听者的单个源距离对应于源信号的不同延迟及其在听者耳朵处的叠加会导致位置相关的梳状滤波,可能会引入恼人的源信号不稳定着色。
[0023]
通过降低显示仅对从2阶到1阶或到0阶的过渡具有可听效果的ambisonics阶,使用(schmele&sayin,2018年)中基于ambisonics的技术控制源宽度。此外,这些过渡不仅被认为是源扩大,而且经常被认为是幻象源的运动。虽然添加源信号的去相关版本有助于稳定对明显源宽度的感知,但它还引入了改变幻象源音色的梳状滤波器效果。
[0024]
本发明的目的是提供再现空间扩展声源或生成空间扩展声源的描述的改进概念。
[0025]
此目的通过权利要求1的用于再现空间扩展声源的装置、权利要求27的用于生成位流的装置、权利要求36的用于再现空间扩展声源的方法、权利要求37的用于生成空间扩展声源的描述的方法、权利要求42的空间扩展声源的描述,或者权利要求48的计算机程序实现。
[0026]
本发明是基于这样的发现,即可以通过使用听者位置计算与空间扩展声源相关联的二维或三维包壳在投影平面上的投影来实现空间扩展声源的再现,特别是甚至可以实现渲染。此投影用于计算空间扩展声源的至少两个声源的位置,并将至少两个声源在该位置处渲染以获得空间扩展声源的再现,其中渲染导致两个或更多个输出信号,并且在不同位置使用不同的声音信号,但不同的声音信号都与同一个空间扩展声源相关联。
[0027]
获得了高质量的二维或三维音频再现,因为一方面考虑了空间扩展声源和(虚拟)听者位置之间的时变相对位置。听者位置可以仅包括用户的几何形状位置,或者可以是用户在空间中的取向,也可以是用户的几何形状位置和取向。另一方面,空间扩展声源由感知声源范围的几何形状信息和许多至少两个声源,诸如外围点源有效地表示,这些声源可以很容易地由众所周知的渲染器处理。几何形状信息优选地是声学有效的几何形状信息。示例性地,窗帘是声学透明的,而从光学角度看是不透明的。对于厚厚的玻璃墙,这种情况是不同的。这面墙是光学透明的,但声学不透明。特别地,本领域中的直接渲染器总是处于在相对于特定输出格式或扬声器设置的特定位置处渲染声源的位置。例如,在某些位置处由声音位置计算器计算的两个声源可以通过例如幅度平移在这些位置处进行渲染。
[0028]
例如,当声音位置在5.1输出格式中的左左环绕声之间,而当其他声源在输出格式
中的右右环绕声之间时,由渲染器执行的幅度平移过程将导致非常相似用于一个声源的左和左环绕声道的信号以及用于另一个声源的右和右环绕声道的相应非常相似的信号,以便用户将声源感知为来自由声音位置计算器计算的位置。然而,由于所有四个信号最终都与空间扩展声源相关联,因此用户不会简单地感知与声音位置计算器计算的位置相关联的两个幻象源,而是听者感知到单一的空间扩展声源。
[0029]
用于在空间中再现具有定义的几何形状位置和/或取向的空间扩展声源的装置,包括接口、投影仪、声音位置计算器和渲染器。本发明允许考虑例如在钢琴内发生的增强的声音情况。钢琴是大型设备,到目前为止,钢琴声音可能已经被渲染为来自单个点源。然而,这并不能完全代表钢琴的真实声音特征。根据本发明,作为空间扩展声源示例的钢琴由至少两个声音信号反射,其中一个声音信号可以由靠近钢琴左侧部分的麦克风记录,即,靠近低音弦,而另一个声源可以由靠近钢琴右侧部分的不同的第二个麦克风记录,即靠近产生高音的高音弦。当然,由于钢琴内的反射情况,两个麦克风都会记录彼此不同的声音,当然,这也是由于低音弦更靠近左侧麦克风而不是右侧麦克风,反之亦然。然而,另一方面,两个麦克风信号都会有大量相似的声音成分,最终构成钢琴的独特声音。具体地,渲染器被配置为响应于接收到的特定信息,即响应于锚定信息,相对于空间扩展声源的固定位置和/或取向来渲染至少两个声源。
[0030]
根据本发明,通过还记录关于空间扩展声源的几何形状信息以及任一可选地还通过与不同麦克风位置(或通常与两个不同声源相关联的两个不同位置)相关的记录位置信息或提供对(钢琴的)声音的感知几何形状的描述,通过记录信号来生成表示空间扩展声源诸如钢琴的位流。为了反映听者相对于声源的位置,即听者可以在虚拟现实或增强现实或任何其他声音场景中“四处走动”,与空间扩展声音相关联的包壳投影诸如钢琴之类的声源是使用听者位置来计算的,并且至少两个声源的位置是使用投影平面来计算的,其中,特别地,优选实施例涉及声源在投影平面的外围点处的定位。输出数据形成器被配置为将锚定信息或位流/描述元素或标志引入到空间扩展声源的描述中,该锚定信息或位流/描述元素或标志指示用于空间扩展声源的一个或多个不同的声音信号的绝对锚定到空间扩展声源的位置或取向。可以实现空间扩展声源的描述,例如作为xml描述、位流或压缩的位流或任何其他计算机可读格式。
[0031]
可以通过减少计算开销和减少渲染开销来实际表示二维或三维情况下的示例钢琴声音,以便例如当听者更靠近诸如钢琴之类的声源的左侧时,听者所感知的声音不同于当用户靠近诸如钢琴之类的声源的右侧部分或甚至位于诸如钢琴之类的声源后面时发生的声音。
[0032]
鉴于上述情况,本发明构思的独特之处在于,在编码器侧,提供了表征空间扩展声源的方式,该方式允许在声音再现情况下使用空间扩展声源以实现真正的二维或三维设置。此外,通过使用听者位置计算二维或三维包壳在投影平面上的投影,以有效方式使得在空间扩展声源的高度灵活描述中使用听者位置成为可能。使用投影平面计算空间扩展声源的至少两个声源的声位,并将至少两个声源在由声音位置计算器计算出的位置渲染,以获得空间扩展声源的再现,空间扩展声源在立体声再现设置或具有多于两个声道诸如五个、七个或甚至更多声道的再现设置中具有两个或更多个耳机输出信号或两个或更多个声道的多声道输出信号。
[0033]
与通过在要填充的体积的所有部分中放置许多不同的点源来用声音填充3d体积的现有技术方法相比,该投影避免了对许多声源进行建模并通过只需要填充包壳的投影,即二维空间显著减少了所使用的点源的数量。此外,通过对投影包壳上的声源进行优选建模,所需点声源的数量甚至进一步减少,在极端情况下,它可能只是空间扩展声源左边界的一个声源,以及空间扩展声源右边界的一个声源。两个减少步骤都基于两个心理声学观察:
[0034]
1.与声源的方位角(和仰角)相比,其距离不能很可靠地被感知。因此,将原始音量投影到垂直于听者的平面上不会显著改变感知(但有助于减少渲染所需的点源数量)。
[0035]
2.两个去相关的声音分别作为点源分布在左侧和右侧,倾向于在感知上用声音填充它们之间的空间。
[0036]
此外,编码器端不仅允许对单个空间扩展声源进行表征,而且是灵活的,因为作为表示生成的诸如位流之类的描述可以包括两个或更多个空间扩展声源的所有数据,这些数据,关于它们的几何形状信息和位置最好与单个坐标系相关。在解码器端,不仅可以对单个空间扩展声源进行再现,还可以对多个空间扩展声源进行再现,其中投影仪使用(虚拟)听者位置计算每个声源的投影。另外,声音位置计算器为每个空间扩展声源计算至少两个声源的位置,并且渲染器为每个空间扩展声源渲染所有计算的声源,例如,通过将来自每个空间扩展声源的两个或更多个输出信号以逐个信号的方式或逐个声道的方式相加,并通过将添加的声道提供给相应的耳机以进行双耳再现或提供给与扬声器相关的再现设置中的相应扬声器,或者可替代地,提供给用于存储(组合的)两个或更多个输出信号以供以后使用或传输的存储器。
[0037]
在发生器侧或编码器侧,使用用于生成空间扩展声源的描述的装置来生成描述,其中该装置包括用于为空间扩展声源提供一个或多个不同的声音信号的声音提供器,以及输出数据形成器生成声音场景的描述,该描述包括一个或多个不同的声音信号,优选地以压缩方式,诸如通过位速率压缩编码器压缩,例如mp3、aac、usac或mpeg-h编码器。输出数据形成器进一步被配置为在两个或更多个不同的声音信号的情况下将用于两个或更多个不同的声音信号中的每个声音信号的可选的个体位置信息引入到描述中,该位置信息指示相应声音信号的位置,优选地具有关于空间扩展声源的几何形状信息,即第一信号是上述示例中记录在钢琴左侧的信号,以及记录在钢琴右侧的信号。
[0038]
然而,可替代地,位置信息不一定必须与空间扩展声源的几何形状相关,但也可以与一般坐标原点相关,尽管与空间扩展声源的几何形状相关是首选。
[0039]
此外,用于生成描述的装置还包括几何形状提供器,用于计算关于空间扩展声源的几何形状的信息,并且输出数据形成器被配置为将关于几何形状的信息、关于每个声音信号的个体位置信息的信息,以及至少两个声音信号,诸如由麦克风记录的声音信号引入描述中。然而,声音提供者不一定必须实际拾取麦克风信号,但也可以在编码器侧根据具体情况使用去相关处理来生成声音信号。同时,对于空间扩展的声音信号,可以仅传输少量的声音信号甚至单个声音信号,并且在再现侧使用去相关处理来生成剩余的声音信号。这优选地由位流中的描述或位流元素用信号表示,以便声音再现器总是知道每个空间扩展声源包括多少声音信号,从而再现器可以决定,特别是在声音位置计算器内,有多少声音信号是可用以及应该在解码器侧导出多少声音信号,诸如通过信号合成或相关处理。
[0040]
在此实施例中,输出数据形成器将位流元素写入描述或位流中,该描述或位流指
示包括用于空间扩展声源的声音信号的数量,并且在解码器侧,声音再现器从传输的描述或位流获取位流元素,读取位流元素,并基于位流元素决定有多少信号用于位于外围声源之间的优选外围点源或辅助源必须基于位流中的至少一个接收到的声音信号来计算。可以实现空间扩展声源的描述,例如作为xml描述、位流或压缩位流或任何其他计算机可读格式。
附图说明
[0041]
随后,结合附图讨论本发明的优选实施例,其中:
[0042]
图1是再现侧的优选实施例的框图的概观;
[0043]
图2示出了具有不同数量的外围点源的球形空间扩展声源;
[0044]
图3示出了具有多个外围点源的椭圆体空间扩展声源;
[0045]
图4示出了线空间扩展声源采用不同方法分布外围点源位置;
[0046]
图5示出了具有不同过程的长方体空间扩展声源以分布外围点源;
[0047]
图6示出了不同距离处的球形空间扩展声源;
[0048]
图7示出了近似参数椭圆体形状内的钢琴形的空间扩展声源;
[0049]
图8示出了具有三个外围点源分布在投影凸包的极值点上的钢琴形的空间扩展声源;
[0050]
图9示出了用于再现空间扩展声源的装置或方法的优选实施方式;
[0051]
图10示出了用于生成空间扩展声源的描述的装置或方法的优选实施方式;
[0052]
图11示出了由图10所示的装置或方法生成的描述的优选实施方式;
[0053]
图12a示出了在听者的右前半球中观察到的具有圆柱形范围和“用户”对齐的对象源;
[0054]
图12b示出了在听者的左前半球中观察到的具有圆柱形范围和“用户”对齐的对象源;
[0055]
图13示出了相对信号声道位置;
[0056]
图14a示出了具有箱形范围和“对象”对齐的对象源(钢琴),即具有取向(前)、范围几何形状和标签平面的钢琴;
[0057]
图14b示出了从钢琴正面观察到的具有箱形范围和“对象”对齐的对象源(钢琴);以及
[0058]
图14c示出了从钢琴侧面观察到的具有箱形范围和“对象”对齐的对象源(钢琴)。
具体实施方式
[0059]
图9示出了用于再现空间扩展声源的装置的优选实施方式,该声源在空间中具有定义的位置或取向和几何形状。该装置包括接口100、投影仪120、声音位置计算器140和渲染器160。接口被配置为接收听者位置。此外,投影仪120被配置为使用由接口100接收的听者位置并附加使用空间扩展声源的几何形状的信息,并附加使用空间扩展声源在空间中的位置信息来计算与空间扩展声源相关联的二维或三维包壳在投影平面上的投影。优选地,接收空间中空间扩展声源的定义位置或取向,以及接收附加地空间中空间扩展声源的几何形状,用于经由位流或到达解复用器或场景或描述解析器180处的描述再现空间扩展声源。
解复用器180从描述中提取关于空间扩展声源的几何形状信息并将此信息提供给投影仪。此外,解复用器还从描述或位流中提取空间扩展声源的位置,并将此信息转发给投影仪。优选地,描述还包括用于至少两个不同声源的位置信息,并且优选地,解复用器还从描述中提取至少两个声源的压缩表示,并且至少两个声源是由解码器作为音频解码器190解压/解码。解码后的至少两个声源最终被转发到渲染器160,以及渲染器在声音位置计算器140提供到渲染器160的位置处渲染至少两个声源。具体地,渲染器160被配置用于响应于接收到的特定信息,即响应于锚定信息,渲染相对于空间扩展声源的固定位置和/或取向的至少两个声源。空间扩展声源的描述可以实现为,例如xml描述、位流或压缩位流或任何其他计算机可读格式。
[0060]
锚定信息的使用特别适用于由多声道信号所定义的空间扩展声源。在此场景中,每个单独的声道都有关联的对齐信息。此对齐信息可以是例如左声道的左对齐和右声道的右对齐。取决于所使用的锚定模式,即取决于锚定模式是“用户对齐”模式还是“对象对齐”模式,并且取决于定位信息将多声道信号的某个声道映射到外围声源。因此,基于观察者的位置和取向,即收听位置,并基于锚定模式,将声道或波形映射到外围声源,并由渲染器使用。因此,在本实施例中,锚定模式用于将定位信息解释为与用户相关或与对象相关。因此,由声音位置计算器确定的至少两个声源由渲染器响应于锚定信息而被渲染。
[0061]
尽管图9示出了具有位流解复用器180和音频解码器190的位流相关再现装置,但再现也可以发生在与编码器/解码器场景不同的情况下。例如,空间中所定义的位置或取向和几何形状可能已经存在于再现装置中,诸如在虚拟现实或增强现实场景中,其中数据在现场生成并在同一现场使用。位流解复用器180和音频解码器190实际上不是必需的,并且空间扩展声源的几何形状和空间扩展声源的位置的信息是可用的,而无需从位流中进行任何提取。此外,将至少两个声源的位置与关于空间扩展声源的几何形状信息相关联的位置信息也可以预先固定协商,并且因此不必从编码器传输到解码器或者,可替代地,此数据再次在现场生成。
[0062]
因此,要注意,位置信息仅在实施例中提供,并且即使在两个或更多个声源信号的情况下也不需要发送此信息。例如,解码器或再现器总是可以将位流或描述中的第一个声源信号作为放置在更左侧的投影上的声源。类似地,位流中的第二声源信号可以看作是投影上的声源,其投影位置更靠右。
[0063]
此外,虽然声音位置计算器使用投影平面计算空间扩展声源的至少两个声源的位置,但至少两个声源不一定必须从描述或位流中接收。取而代之的是,可以经由位流和其他声源仅接收至少两个声源中的单个声源,并且因此,也可以仅在再现侧实际生成其他位置或位置信息,而无需发送从描述生成器到再现器的此类信息。然而,在其他实施例中,可以传输所有这些信息,并且此外,当位速率要求不严格时,可以在位流中传输比一个或两个更高数量的声音信号,并且音频解码器190将解码代表由声音位置计算器140计算其位置的至少两个声源的两个、三个或甚至更多声音信号。
[0064]
图10示出了当在编码器/解码器应用内应用再现时此场景的编码器侧。图10示出了用于生成空间扩展声源的描述的装置。特别地,提供了声音提供器200和输出数据形成器240。在此实施方式中,空间扩展声源由具有一个或多个不同的声音信号的压缩描述来表示,并且输出数据生成器生成表示优选压缩的声音场景的描述,其中描述包括至少一个或
多个不同的声音信号和与空间扩展声源相关联的几何形状信息。这代表了关于图9所示的情况,其中所有其他信息,诸如空间扩展声源的位置(参见图9的块120中的虚线箭头)可由再现侧的用户自由选择。因此,提供了有用于此空间扩展声源的至少有一个或多个不同的声音信号的空间扩展声源的唯一描述,其中这些声音信号仅仅是点源信号。
[0065]
用于生成的装置另外包括几何形状提供器220,用于提供诸如计算关于空间扩展声源的几何形状的信息。提供与计算不同的几何形状信息的其他方式包括接收用户输入,诸如由用户手动绘制的图形或由用户例如通过语音、音调、手势或任何其他用户动作提供的任何其他信息。除了一个或多个不同的声音信号之外,关于几何形状的信息也被引入描述或位流中。
[0066]
可选地,关于一个或多个不同的声音信号的每个声音信号的个体位置信息的信息也被引入位流中,和/或关于空间扩展声源的位置信息也被引入位流或描述中。用于声源的位置信息可以与几何形状信息分开,也可以包括在几何形状信息中。在第一种情况下,可以相对于位置信息给出几何形状信息。在第二种情况下,几何形状信息可以包括,例如对于球体,坐标中的中心点和半径或直径。对于盒状空间扩展声源,可以在绝对坐标中给出八个或至少一个角点。
[0067]
一个或多个不同的声音信号中的每一个的位置信息优选地与关于空间扩展声源的几何形状信息相关。然而,可替代地,与相同坐标系相关的绝对位置信息,其中给出空间扩展声源的位置或几何形状信息也是有用的,或者可替代地,几何形状信息也可以在绝对坐标系内使用绝对坐标给出而不是相对方式。然而,以与一般坐标系无关的相对方式提供此数据允许用户将空间扩展声源定位在自身再现设置中或他自身,如指向图9的投影仪120的虚线所示。
[0068]
在进一步实施例中,图10的声音提供器200被配置用于为空间扩展声源提供至少两个不同的声音信号,并且输出数据形成器被配置用于生成位流,使得位流包括优选地为编码格式的至少两个不同的声音信号,并且可选地,至少两个不同的声音信号的每个声音信号的个体位置信息在绝对坐标中或相对于空间扩展声源的几何形状。
[0069]
在实施例中,声音提供器被配置为在单独的多个麦克风位置或取向执行自然声源的记录,或者以通过例如,关于图1的第164和166项所讨论的一个或多个去相关滤波器执行从单个基本信号或多个基本信号导出声音信号。在发生器中使用的基本信号可以与在再现站点上提供或从发生器传输到再现器的基本信号相同或不同。
[0070]
在进一步实施例中,几何形状提供器220被配置为从空间扩展声源的几何形状中导出参数描述或多边形描述,并且输出数据形成器被配置为将此参数化描述或多边形描述引入位流。
[0071]
此外,在优选实施例中,输出数据形成器被配置为将描述元素引入位流或描述中,其中此位流元素指示用于空间扩展声源的至少一个不同的声音信号的数量,空间扩展声源包括在位流或包括在与位流相关的编码音频信号中,其中数字为1或大于1。,由输出数据形成器生成的位流不一定是一方面音频波形数据和另一方面元数据的完整描述。而是,描述或位流也可以只是单独的元数据位流,包括例如每个空间扩展声源的声音信号数量的描述字段、关于空间扩展声源的几何形状信息,以及在实施例中,还有用于关于空间扩展声源的位置信息,以及可选地用于每个声音信号和每个关于空间扩展声源的位置信息,关于空间
扩展声源的几何形状信息,以及在实施例中,还有用于空间扩展声源的位置信息。通常以压缩形式可用的波形音频信号通过单独的数据流或单独的传输声道传输到再现器,以便再现器从一个源接收编码的元数据并从不同的源接收(编码的)波形信号。
[0072]
输出数据形成器(240)进一步被配置为向描述中引入标志、位流或位流元素或在图10中的322处示出的信息,该信息项指示一个或多个空间扩展声源的不同的声音信号到空间扩展声源的位置或取向的绝对锚定。锚定信息322可以由声音场景或空间扩展声源的创建者自动或手动生成。单个声道可以在某些地方实际记录(诸如在钢琴的示例中,通过位于钢琴左侧的第一个麦克风和位于钢琴右侧的第二个麦克风)或者可以合成创建或使用虚拟麦克风。在对象锚定模式下,声音信号或波形的定位信息将来自麦克风位置或将是麦克风位置本身得出。
[0073]
此外,描述生成器的实施例包括控制器250。控制器250被配置为控制声音提供器200关于将由声音提供器提供的声音信号的数量。根据此过程,控制器250还将位流元素信息提供给由表示可选特征的阴影线指示的输出数据形成器240。输出数据形成器将关于声音信号的数量的特定信息作为受控控制器250引入位流元素,并由声音提供器200提供。优选地,声音信号的数量受到控制,使得包括编码的音频声音信号的输出位流满足外部位速率要求。当允许的位速率较高时,与允许的位速率较小的情况相比,声音提供者将提供更多的声音信号。在极端情况下,当位速率要求严格时,声音提供者只会为空间扩展声源提供单个声音信号。
[0074]
再现器将读取相应设置的位流元素,并将在渲染器160内继续在解码器侧并使用传输的声音信号合成相应数量的其他声音信号,以便已经生成最终所需数量外围点源和可选的辅助源。
[0075]
然而,当位速率要求不是那么严格时,控制器250将控制声音提供者提供大量不同的声音信号,例如,由相应数量的麦克风或麦克风取向记录的信号。然后,在再现侧,任何去相关处理根本不需要或仅在很小程度上是必要的,因此,最终,由于减少或不需要去相关处理,再现器在再现侧获得了更好的再现质量。一方面位速率和另一方面质量之间的折衷优选地经由位流元素的功能获得,该功能指示每个空间扩展声源的声音信号的数量。
[0076]
图11示出了由图10所示的描述生成装置生成的描述的优选实施例。描述包括例如表示为sess2的第二空间扩展声源401以及对应的数据和另一个表示为sess1的第一空间扩展声源以及数据301到322。
[0077]
因此,图11示出了与空间扩展声源编号1相关的每个空间扩展声源的详细数据。在图11的示例中,对于例如,从放置在空间扩展声源的两个不同位置的麦克风拾取的麦克风输出数据在生成器中已经生成的空间扩展声源,有两个声音信号。第一声音信号是在301处指示的声音信号1并且第二声音信号是在302处指示的声音信号2,并且两个声音信号优选地经由用于经位速率压缩的音频编码器进行编码。此外,项目311表示指示用于空间扩展声源1的声音信号的数量的描述元素,例如由图10的控制器250控制。
[0078]
如块331中所示,引入关于空间扩展声源的几何形状信息。项目301指示用于声音信号的可选位置信息,优选地与几何形状信息相关,诸如,对于钢琴示例,表示声音信号1的“靠近低音弦”和声音信号2的“靠近高音弦”在302处指示。因此,项目302表示定位信息。此定位信息在再现声源时由锚定信息元素322解释。几何形状信息例如可以是钢琴模型的参
数表示或多边形表示,并且此钢琴模型将是例如,对于大钢琴或(小型)钢琴来说是不同的。项目341附加地示出了关于空间内关于空间扩展声源的位置信息的可选数据。如前所述,当用户提供如图9中虚线指示的指向投影仪的位置信息时,此位置信息341不是必需的。然而,即使位置信息341被包括在位流中,用户仍然可以通过用户交互来替换或修正位置信息。
[0079]
随后讨论本发明的优选实施例。实施例涉及在6dofvr/ar(虚拟现实/增强现实)中渲染空间扩展声源。
[0080]
本发明的优选实施例针对被设计用于增强空间扩展声源(sess)的再现的方法、装置或计算机程序。特别地,本发明的方法或装置的实施例考虑空间扩展声源和虚拟听者位置之间的时变相对位置。换言之,本发明的方法或装置的实施例允许听源宽度与所表示的声音对象在与听者的任何相对位置处的空间范围相匹配。因此,本发明方法或装置的实施例特别适用于6自由度(6dof)虚拟、混合和增强现实应用,其中空间扩展声源补充了传统采用的点源。
[0081]
本发明的方法或装置的实施例通过使用几个外围点源来渲染空间扩展声源,这些外围点源被馈送有(优选地显著地)去相关的信号。与其他方法相比,这些外围点源的位置取决于听者相对于空间扩展声源的位置。图1描绘了根据本发明方法或装置的实施例的空间扩展声源渲染器的概略框图。
[0082]
框图的关键组件是:
[0083]
1.听者位置:此块提供听者的瞬时位置,例如,由虚拟现实跟踪系统测量。该块可以实现为用于检测的检测器100或用于接收听者位置的接口100。
[0084]
2.空间扩展声源的位置和几何形状:此块提供要渲染的空间扩展声源的位置和几何形状数据,例如,作为虚拟现实场景表示的一部分。
[0085]
3.投影和凸包计算:此块120计算空间扩展声源几何形状结构的凸包,然后将其投影到朝向听者位置的方向(例如,“图像平面”,见下文)。可替代地,可以通过首先将几何形状投影到听者位置然后计算其凸包来实现相同的功能。
[0086]
4.外围点源的位置:此块140根据由前一个块计算的凸包投影数据计算使用的外围点源的位置。在此计算中,它还可以考虑听者的位置,从而考虑听者的靠近度/距离(见下文)。输出是n个外围点源位置。
[0087]
5.渲染器核心:渲染器核心162通过将n个外围点源定位在特定的目标位置来对它们进行听觉化。这可以是例如使用头部相关传递函数的双耳渲染器或用于扬声器再现的渲染器(例如,基于向量的幅度平移)。渲染器核心从k个输入音频基本信号(例如,乐器录音的去相关信号)和m≥(n-k)个附加去相关音频信号中产生l个扬声器或耳机输出信号。
[0088]
6.源基本信号:此块164是k个基础音频信号的输入,这些音频信号(充分)彼此去相关并表示要渲染的声源(例如,单声道-k=1-或立体声-k=2
–
乐器的记录)。k个基础音频信号例如取自从解码器侧生成器接收的位流(参见例如图11的元素301、302),或者可以在再现站点从外部源提供。基础音频信号到外围声源的位置的映射或外围声源的生成或波形可以受到定位信息与示例性地指示用户或听者锚定或对象锚定的锚定信息一起的影响。
[0089]
7.去相关器:此可选块166根据渲染n个外围点源的需要生成附加去相关音频信号。
[0090]
8.信号输出:渲染器为扬声器(例如n=5.1)或双耳(通常n=2)渲染提供l个输出
信号。
[0091]
图1示出了本发明方法或装置的实施例的框图的概览。虚线表示诸如几何形状和位置等元数据的传输。实线表示音频的传输,其中k、l和m表示音频声道的数量。渲染器核心162可能接收k+m个音频信号和n(《=k+m)个位置数据。块162、164、166一起形成通用渲染器160的实施例。渲染器附加地接收用于解释几何形状信息的锚定信息,以及特别是在描述空间扩展声源的几个声道信号的情况下的定位信息。
[0092]
外围点源的位置取决于空间扩展声源的几何形状,特别是空间范围以及听者相对于空间扩展声源的相对位置。特别地,外围点源可以位于空间扩展声源的凸包在投影平面上的投影上。投影平面可以是图像平面,即垂直于从听者到空间扩展声源的视线的平面,也可以是围绕听者头部的球面。投影平面位于距听者头部中心任意小的距离处。可替代地,可以根据方位角和仰角计算空间扩展声源的投影凸包,方位角和仰角是相对于听者头部的透视的球坐标的子集。在下面的说明性示例中,由于其更直观的特性,投影平面是优选的。在投影凸包计算的实现中,角度表示是优选的,因为形式化更简单,计算复杂度更低。请注意,空间扩展声源凸包的投影与空间扩展声源几何形状投影的凸包相同,即凸包计算和图像平面上的投影可以按任一顺序使用。
[0093]
外围点源位置可以以多种方式分布在空间扩展声源的凸包投影上,包括:
[0094]
·
它们可以在包壳投影周围均匀地受到干扰
[0095]
·
它们可以分布在包壳投影的极值点
[0096]
·
它们可以位于包壳投影的水平和/或垂直极值点(参见实际示例部分中的图)。
[0097]
除了外围点源之外,还可以使用其他辅助点源来产生增强的声学填充感,但会增加计算复杂性。此外,可以在定位外围点源之前修正投影凸包。例如,投影凸包可以朝着投影凸包的重心收缩。这种收缩的投影凸包可以导致由渲染方法引入的单个外围点源的附加空间扩展。凸包的修正可以进一步区分水平和垂直方向的缩放。
[0098]
当听者相对于空间扩展声源的位置发生变化时,空间扩展声源在投影平面上的投影也随之变化。反过来,外围点源的位置也会相应改变。外围点声源位置应优选地选择为使得它们平滑地变化以用于空间扩展声源和听者的连续移动。此外,当空间扩展声源的几何形状改变时,投影凸包也改变。这包括空间扩展声源几何形状在3d空间中的旋转,这会改变投影凸包。几何形状的旋转等于听者位置相对于空间扩展声源的角位移,并且例如以包容性的方式称为听者和空间扩展声源的相对位置。例如,听者围绕球形空间扩展声源的圆周运动通过围绕重心旋转外围点源来表示。同样,静止的听者的空间扩展声源的旋转导致外围点源位置的变化相同。
[0099]
由本发明的方法或装置的实施例生成的空间范围对于空间扩展声源和听者之间的任何距离固有地正确再现。自然地,当用户靠近空间扩展声源时,外围点声源之间的张角增大,因为它适合于对物理现实进行建模。
[0100]
虽然外围点源的角度位置由投影平面上投影凸包上的位置唯一确定,但外围点源的距离可以通过各种方式进一步选择,包括
[0101]
·
所有外围点源具有相同的距离,等于整个空间扩展声源的距离,例如,通过空间扩展声源相对于听者头部的重心来定义。
[0102]
·
每个外围点源的距离由投影凸包上的位置背投影到空间扩展声源的几何形状
上来确定,诸如外围点源投影在投影平面上的结果是同一点。从投影凸包到空间扩展声源的外围点源的背投影可能并不总是唯一确定的,因此必须应用附加的投影规则(参见实际示例部分)。
[0103]
·
如果外围点源的渲染不需要距离属性,而只需要方位角和仰角的相对角度位置,则可能根本无法确定外围点源的距离。
[0104]
为了指定空间扩展声源的几何形状/凸包,使用近似值(并且可能传输到渲染器或渲染器核心),包括简化的1d,例如线、曲线;2d,例如椭圆、矩形、多边形;或3d形状,例如椭圆体、长方体和多面体。空间扩展声源的几何形状或相应的近似形状分别可以用各种方式来描述,包括:
[0105]
·
参数化描述,即经由接受附加参数的数学表达式对几何形状进行形式化。例如,可以通过笛卡尔坐标系上的隐式函数来描述3d中的椭圆体形状,并且附加参数是主轴在所有三个方向上的延伸。其他参数可以包括椭圆体表面的3d旋转、变形函数。
[0106]
·
多边形描述,即原始几何形状的集合,诸如线、三角形、正方形、四面体和长方体。灵长类多边形和多面体可以连接到更大更复杂的几何形状。
[0107]
外围点源信号是从空间扩展声源的基本信号中导出的。可以通过多种方式获取基本信号,诸如:1)在单个或多个麦克风位置和取向记录自然声源(示例:如在实际示例中看到的钢琴声音的记录);2)人工声源的合成(例如:不同参数的声音合成);3)任何音频信号的组合(例如:汽车的各种机械声音,诸如发动机、轮胎、车门等)。此外,可以通过多个去相关滤波器从基本信号中人工生成附加的外围点源信号(参见前面的部分)。
[0108]
在某些应用场景中,重点是6dof vr/ar内容的紧凑且可互操作的存储/传输。在这种情况下,整个链条包括三个步骤:
[0109]
1.将所需的空间扩展声源创作/编码成描述,诸如位流。
[0110]
2.生成的位流的传输/存储。根据本发明,除了其他元素之外,位流还包含对空间扩展声源几何形状(参数或多边形)和相关联的源基本信号的描述,如单声道或立体声钢琴录音。可以使用诸如mp3或mpeg-2/4高级音频编码(aac)之类的感知音频编码算法来压缩波形(参见图10中的项目260)。
[0111]
3.如前所述,基于传输的位流对空间扩展声源进行解码/渲染。
[0112]
除了前面描述的核心方法之外,还有几个进一步处理的选项:
[0113]
选项1
–
外围点源编号和位置的动态选择
[0114]
根据听者到空间扩展声源的距离,外围点源的数量可以变化。例如,当空间扩展声源与听者相距较远时,投影凸包的张角(孔径)变小,并从而可以有利地选择更少的外围点源,从而节省计算和存储复杂性。在极端情况下,所有外围点源都被缩减为单个剩余的点源。可以应用适当的缩混技术来确保基本信号和导出信号之间的干扰不会降低所得外围点源信号的音频质量。如果空间扩展声源的几何形状根据听者的相对视点高度不规则,则类似技术也可以应用于空间扩展声源到听者位置的近的距离。例如,作为有限长度线的空间扩展声源几何形状结构可能在投影平面上向单个点退化。一般来说,如果投影的凸包上的外围点源的角度范围较小,则空间扩展声源可以由较少的外围点源表示。在极端情况下,所有外围点源都被缩减为单个剩余的点源。
[0115]
选项2
–
传播补偿
[0116]
由于每个外围点源也展现出向凸包投影外侧的空间传播,因此所渲染现的空间扩展声源的感知听觉图像宽度略大于用于渲染的凸包。为了将其与所需的目标几何形状对齐,有两种可能性:
[0117]
1.创作期间的补偿:在内容创作期间考虑渲染过程的附加传播。具体而言,在内容创作期间选择稍微更小的空间扩展声源几何形状,以便实际渲染的大小符合需要。这可以通过监视创作环境(例如,生产工作室)中渲染器或渲染器核心的效果来检查。在这种情况下,与目标大小相比,传输的描述或位流和渲染器或渲染器核心使用减小的目标几何形状。
[0118]
2.渲染过程中的补偿:空间扩展声源渲染器或渲染器核心可以通过渲染过程感知附加的感知扩展,从而可以补偿此影响。作为简单的示例,用于渲染的几何形状可以是
[0119]
ο减少常数因子a《1.0(例如a=0.9),或者
[0120]
ο减少恒定的张角alpha=5度
[0121]
在应用于放置外围点源之前。在这种情况下,传输的位流包含空间扩展声源几何形状的最终目标大小。
[0122]
此外,这些方法的组合是可行的。
[0123]
选项3
–
外围点源波形的生成
[0124]
进一步,通过考虑相对于空间扩展声源的用户位置,可以从记录的音频信号中生成用于馈送外围点源的实际信号,以便对具有几何形状相关声音贡献的空间扩展声源进行建模,诸如具有左侧发出低音的钢琴,反之亦然。
[0125]
示例:立式钢琴的声音以其声学行为为特征。这由(至少)两个音频基本信号建模,一个靠近钢琴键盘的下端(“低音”),以及一个靠近键盘的上端(“高音”)。这些基本信号可以在记录钢琴声音时通过适当的麦克风获得,并传输到6dof渲染器或渲染器核心,确保它们之间有足够的去相关性。
[0126]
然后通过考虑相对于空间扩展声源的用户位置,从这些基本信号中导出外围点源信号:
[0127]
·
当用户从正面(键盘)侧面向钢琴时,两个外围点源分别在钢琴键盘的左端和右端附近彼此相距较远。在这种情况下,低音的基本信号可以直接馈入左外围点源,以及高音的基本信号可以直接用于驱动右外围点源。
[0128]
·
当听者绕着钢琴向右走大约90度时,两个外围点源被平移到彼此非常靠近的位置,因为钢琴体积模型的投影(例如椭圆)从侧面看时是很小的。如果继续使用基本信号直接驱动外围点源信号,则一个外围点源将主要包含高音,而另一个将主要承载低音。由于从物理角度来看这是不希望的,因此可以通过将两个基本信号旋转以通过与用户相对于钢琴重心的移动相同的角度的givens旋转形成外围点源信号来改进渲染。这样,两个信号都包含具有相似频谱内容的信号,同时仍被去相关(假设基本信号已被去相关)。
[0129]
选项4
–
渲染的空间扩展声源的后处理
[0130]
可以对实际信号进行预处理或后处理,以考虑位置和方向相依的影响,例如空间扩展声源的方向性模式。换言之,从空间扩展声源发出的整个声音,如前所述,可以被修正以展示例如与方向相依的声音辐射模式。在钢琴信号的情况下,这可能意味着朝向钢琴背面的辐射比朝向钢琴前面的辐射具有更少的高频成分。此外,可以针对每个外围点源单独调整外围点源信号的预处理和后处理。例如,可以针对每个外围点源不同地选择方向性图
案。在表示钢琴的空间扩展声源的给定示例中,低音和高音范围的方向性模式可能与上述相似,但是诸如踩踏噪声之类的附加信号具有更全向性的方向性模式。
[0131]
随后,总结了优选实施例的几个优点
[0132]
与使用点源完全填充空间扩展声源内部(例如,在advanced audiobifs中使用的)相比,计算复杂度更低
[0133]
·
点源信号之间破坏性干扰的可能性较小
[0134]
·
位流信息的紧凑尺寸(几何形状近似,一个或多个波形)
[0135]
·
允许使用为音乐消费而制作的传统录音(例如,钢琴的立体声录音),用于vr/ar渲染
[0136]
随后,给出了各种实际的实现示例:
[0137]
·
球形空间扩展声源
[0138]
·
椭圆体空间扩展声源
[0139]
·
线性空间扩展声源
[0140]
·
长方体空间扩展声源
[0141]
·
距离相关的外围点源
[0142]
·
钢琴形的空间扩展声源
[0143]
如在本发明方法或装置的上述实施例中所描述的,可以应用用于确定外围点源的位置的各种方法。以下实际示例演示了特定案例中的一些孤立方法。在本发明方法或装置的实施例的完整实现中,可以考虑计算复杂度、应用目的、音频质量和实现的容易程度,适当地组合各种方法。
[0144]
空间扩展声源几何形状表示为绿色表面网格。请注意,网格可视化并不意味着空间扩展声源几何形状是由多边形方法描述的,因为实际上空间扩展声源几何形状可能是从参数规范生成的。听者位置由蓝色三角形表示。在以下示例中,图片平面被选为投影平面,并被描绘为透明的灰色平面,它表示投影平面的有限子集。空间扩展声源在投影平面上的投影几何形状用相同的绿色表面网格描绘。投影凸包上的外围点源在投影平面上被描绘为红色十字。在空间扩展声源几何形状上的背投影外围点源被描绘为红点。投影凸包上的对应外围点源和空间扩展声源几何形状上的背投影外围点源通过红线连接,以帮助识别视觉对应关系。所有涉及的对象的位置都在笛卡尔坐标系中描绘,单位为米。所描绘的坐标系的选择并不意味着所涉及的计算是用笛卡尔坐标执行的。
[0145]
图2中的第一个示例考虑了球形空间扩展声源。球形空间扩展声源相对于听者具有固定大小和固定位置。在投影凸包上选择三组、五组和八组不同的外围点源。所有三组外围点源都是在凸包曲线上以均匀的距离选择的。有意选择凸包曲线上外围点源的偏移位置,以便很好地表示空间扩展声源几何形状的水平范围。
[0146]
图2示出了具有不同数量(即3(顶部)、5(中间)和8(底部))的外围点源均匀分布在凸包上的球形空间扩展声源。
[0147]
图3中的下一个示例考虑了椭圆体空间扩展声源。椭圆体空间扩展声源在3d空间中具有固定的形状、位置和旋转。四个外围点源在此示例中被选择。举例说明了确定外围点源位置的三种不同方法:
[0148]
a)两个外围点源放置在两个水平极值点处,并且两个外围点源放置在两个垂直极
值点处。然而,极值点定位很简单并且通常是合适的。此示例表明,此方法可能会产生彼此相对靠近的外围点源位置。
[0149]
b)所有四个外围点源都均匀分布在投影凸包上。外围点源位置的偏移被选择为使得最顶部外围点源位置与a)中的最顶部外围点源位置重合。可以看出,外围点源位置偏移的选择对经由外围点源的几何形状的表示有相当大的影响。
[0150]
c)所有四个外围点源都均匀分布在收缩的凸包上。外围点源位置的偏移位置等于b)中选择的偏移位置。投影凸包的收缩操作是朝着投影凸包的重心执行的,具有与方向无关的拉伸因子。
[0151]
图3示出了在确定外围点源位置的三种不同方法下具有四个外围点源的椭圆体空间扩展声源:a/顶部)水平和垂直极值点,b/中间)凸包上均匀分布的点,c/底部)收缩凸包上均匀分布的点。
[0152]
图4中的下一个示例考虑了线性空间扩展声源。尽管前面的示例考虑了体积空间扩展声源几何形状,但此示例表明空间扩展声源几何形状可以很好地选择为3d空间内的单维对象。子图a)描绘了放置在有限线空间扩展声源几何形状的极值点上的两个外围点源。b)两个外围点源放置在有限线空间扩展声源几何形状的极值点,并且另外附加点源放置在线的中间。如在本发明方法或装置的实施例中所描述的,在空间扩展声源几何形状内放置附加的点源可以帮助填充大空间扩展声源几何形状中的大间隙。c)考虑了与a)和b)中相同的线空间扩展声源几何形状,但是改变了朝向听者的相对角度,使得线几何形状的投影长度相当小。如上面本发明方法或装置的实施例中所述,投影凸包的减小尺寸可以由减少数量的外围点源来表示,在此特定示例中,由位于线几何形状中心的单个外围点源来表示。
[0153]
图4示出了线空间扩展声源,它使用三种不同的方法来分配外围点源的位置:a/顶部)投影凸包上的两个极值点;b/中间)投影凸包上的两个极值点,在线中心有附加点源;c/底部)在凸面中心有一个外围点源,因为旋转线的投影凸包太小,无法允许多于一个的外围点源。
[0154]
图5中的下一个示例考虑了长方体空间扩展声源。长方体空间扩展声源具有固定的大小和固定的位置,但是听者的相对位置会发生变化。子图a)和b)描述了在投影凸包上放置四个外围点源的不同方法。背投影外围点源位置由投影凸包上的选择唯一确定。c)描绘了四个外围点源,它们没有很好地分离的背投影位置。而是,外围点源位置的距离被选择为等于空间扩展声源几何形状的重心距离。
[0155]
图5示出了长方体空间扩展声源,它具有三种不同的外围点源分布方法:a/底部)水平轴上的两个外围点源和垂直轴上的两个外围点源;b/中间)投影凸包水平极值点上的两个外围点源和投影凸包垂直极值点上的两个外围点源;c/底部)背投影外围点源距离被选择为等于空间扩展声源几何形状的重心距离。
[0156]
图6中的下一个示例考虑了具有固定大小和形状的球形空间扩展声源,但相对于听者位置位于三个不同的距离。外围点源均匀分布在凸包曲线上。外围点源的数量由凸包曲线的长度和可能的外围点源位置之间的最小距离动态确定。a)球形空间扩展声源距离很近,使得在投影凸包上选择了四个外围点源。b)球形空间扩展声源处于中等距离,使得在投影凸包上选择了三个外围点源。a)球形空间扩展声源距离较远,使得在投影凸包上仅选择两个外围点源。如以上本发明的方法或装置的实施例中所述,外围点源的数量也可以根据
以球角坐标表示的范围来确定。
[0157]
图6示出了大小相等但距离不同的球形空间扩展声源:a/顶部)四个外围点源均匀分布在投影凸包上的近距离;b/中间)投影凸包上均匀分布的三个外围点源的中间距离;c/底部)两个外围点源均匀分布在投影凸包上的远距离。
[0158]
图7和8中的最后一个示例考虑了放置在虚拟世界中的钢琴形状的空间扩展声源。用户佩戴头戴式显示器(hmd)和耳机。向用户呈现虚拟现实场景,包括开放的文字画布和站立在自由移动区域内的地板上的3d立式钢琴模型(参见图7)。开放世界画布是投影到用户周围球体上的球形静态图像。在这种特殊情况下,开放世界画布描绘了蓝天和白云。用户可以四处走动,从各个角度观看和聆听钢琴。在这个场景中,钢琴被渲染为放置在重心的单点声源,或者在投影凸包上具有三个外围点声源的空间扩展声源(参见图8)。渲染实验表明,外围点源渲染方法比作为单点源的渲染具有非常优越的真实感。
[0159]
为了简化外围点源位置的计算,钢琴几何形状被抽象为具有相似尺寸的椭圆体形状,见图7。此外,两个替代点源放置在赤道线上的左右极值点上,而第三个替代点仍位于北极,参见图8。这种布置保证了从各个角度获得适当的水平源宽度,同时大大降低了计算成本。
[0160]
图7示出了钢琴形空间扩展声源(以绿色表示),具有近似参数椭圆体形状(表示为红色网格)。
[0161]
图8示出了钢琴形空间扩展声源,具有三个外围点源分布在投影凸包的垂直极值点和投影凸包的垂直顶部位置。请注意,为了更好地可视化,外围点源放置在拉伸的投影凸包上。
[0162]
随后,提供了本发明实施例的具体特征。所提供的实施例的特征如下:
[0163]
·
为了填充空间扩展声源的感知声学空间,最好不要将其整个内部填充去相关的点源(外围点源),而仅填充其面向听者的外围(例如,“空间扩展声源的凸包朝向听者的投影”)。具体而言,这意味着外围点源位置不附加到空间扩展声源几何形状,而是动态计算,并考虑到空间扩展声源相对于听者位置的相对位置。
[0164]
ο外围点源的动态计算(数量和位置)
[0165]
·
使用空间扩展声源形状的近似值(对于使用压缩表示的场景:作为位流的一部分传输)。
[0166]
所述技术的应用可以作为音频6dof vr/ar标准的一部分。在这种情况下,有经典的编码/位流/解码器(+渲染器)场景:
[0167]
·
在编码器中,空间扩展声源的形状将与空间扩展声源的“基本”波形一起编码为侧信息,这可能是
[0168]
ο单声道信号,或者
[0169]
ο立体声信号(最好是充分去相关的),或者
[0170]
ο表征空间扩展声源的更多记录的信号(也优选地足够去相关)。这些波形可以是低位速率编码的。
[0171]
·
在解码器/渲染器中,从位流中检索空间扩展声源形状和相应的波形,并用于渲染空间扩展声源,如前所述。
[0172]
取决于所使用的实施例并且作为所描述的实施例的替代方案,应当注意,该接口
可以被实现为用于检测听者位置的实际跟踪器或检测器。然而,收听位置通常将从外部跟踪器设备接收并经由接口馈送到再现装置中。但是,该接口可以仅代表来自外部跟踪器的输出数据的数据输入,也可以代表跟踪器本身。
[0173]
此外,如概述的,可能需要外围声源之间的附加辅助音频源。
[0174]
此外,已经发现左/右外围声源和可选的水平(相对于听者)间隔的辅助声源对于感知印象比垂直间隔的外围声源,即顶部的外围声源和在空间扩展声源的底部更重要。例如,当资源稀缺时,优选使用至少水平间隔的外围(和可选的辅助)声源,而为了节省处理资源,可以省略垂直间隔的外围声源。
[0175]
此外,如所概述的,位流生成器可以被实现为为空间扩展声源生成仅具有一个声音信号的位流,并且剩余的声音信号通过去相关在解码器侧或再现侧生成。当只存在单个信号,并且当整个空间要用此信号均匀地填充时,任何位置信息都是不必要的。然而,在这种情况下,至少有关于由几何形状信息计算器计算的空间扩展声源的几何形状的附加信息是有用的,诸如在图10中的220处所示的那个。
[0176]
下面讨论进一步的实施例:
[0177]
对象源输入布局(objectsourceinputlayout)
[0178]
具有空间范围的objectsource可以具有多声道audiostream,从而使渲染器能够以比单声道audiostream更真实的方式渲染objectsource。例如,这在渲染扩散的音频源,诸如喷泉、瀑布、河流、碎浪等时很有用。
[0179]
具有范围的objectsource始终被听者在来自听者的仰角-方位角区域中感知。此区域由objectsource相对于听者的相对位置和objectsource的范围决定,所有这些都在声学感知意义上。这在图12a中举例说明了具有圆柱形范围的对象源,其中objectsource位于听者的右前半球。与仰角-方位角区域的中心的观测向量的正交的平面与仰角-方位角区域的交集指定了矩形。此矩形表示从听者的位置由听者在声学上感知到的objectsource的水平和垂直范围。当听者围绕objectsource移动、靠近或远离它时,此矩形将在世界空间坐标系中平移、旋转和调整大小。图12b示出了当圆柱形objectsource位于听者的左前半球时的情况。但是在以这些感知范围矩形的中心为原点的x-y坐标系中,这些矩形总是以源的(0,0)点为中心定位。
[0180]
objectsource描述的inputlayout子节点由对齐标志和字符串组成,包含由空格分隔的定位助记符:
[0181][0182]
对齐属性定义了相关音频流的波形(声道)如何相对于源定位/锚定的方式。定位属性是字符串,包含由空格分隔的助记符标签,其中必须为每个波形提供助记符标签。如图13所示,支持参考先前描述的x-y坐标系的九个相对位置助记符。
[0183]
因此,支持的声道规范是该x-y坐标系统中的九个相对位置,如图13中所述。
[0184]
此外,objectsourceinputlayout可以是字符串,包含由空格分隔的位置助记符。图13列出了可能的九个位置。
[0185]
可替代地,相对声道位置可用于指示波形的使用,用于渲染具有绝对3d坐标空间大小的objectsource(例如:具有主要包含较低的音符的一个声道的和主要包含较高的音符的另一个声道的大钢琴的声音)。在这种情况下,当朝向objectsource的位置(并且必须存在ob-jectsource的“取向”属性)时,标签应用于垂直于objectsource正面方向的平面上的矩形。这由objectsourceinputlayout字符串中的起始“a”助记符表示。
[0186]
示例:
[0187]
inputlayout=”l r”[0188]
表示使用2个波形来渲染源的水平宽度。
[0189]
inputlayout=”b t”[0190]
表示使用2个波形来渲染源的垂直宽度。
[0191]
inputlayout=”bl tl tr br”[0192]
表示使用4个波形来渲染源的水平和垂直宽度。
[0193]
inputlayout=”al r”[0194]
表示使用2个波形来渲染具有绝对左右分配的源的水平宽度。
[0195]
换言之,上述实施例涉及具有两个相关波形的objectsource(来自立体声录音,其中左声道理想地承载更多的低音而右声道承载更高的音)。
[0196]
为了适应这一点,请参考objectsourceinputlayout。当前定义的标签(如l、c、r)始终是为垂直于视图方向的投影平面定义的。因此,这不适合静态对象,诸如(大)钢琴的需求。
[0197]
因此,根据实施例,附加位流元素被实施为例如eif规范中的小标志或附加标志(或字母),其允许使用将*绝对*标签锚定添加到当前eif规范。这允许解决大钢琴的情况并描述预期的波形使用*相对于乐器的固定(绝对)位置和取向*-以及尺寸属性的使用。对象
的取向将作为新投影平面的参考。附加位流元素也可以与附加字母不同,只要解码器被配置为解析元素以进行正确渲染。
[0198]
在上面的示例中,字母“a”表示标记或位流元素或锚定信息。此信息由再现侧的渲染器用于响应于接收到的特定信息,相对于空间扩展声源的固定位置和/或取向来渲染至少两个声源。优选地,当信息不在编码信号语法中时,渲染与传输的信息一致(例如,左或右)发生但与用户位置相关。然而,当存在信息时,则不是相对于用户或听者位置而是相对于声源位置执行渲染。换句话说,当信息存在时,例如,无论用户是站在钢琴前面还是后面,都按原样渲染钢琴。第一个声道总是来自钢琴的低音侧,以及第二个声道总是来自钢琴的高音侧。然而,当此信息不存在时,则只有当用户站在钢琴前面时声道位置才是正确的,而当用户站在钢琴后面时声道位置将是错误的。
[0199]
换言之,实施例涉及相对于听者观看方向的标签的锚定(如图12a和12b中的初始示例中所述,属性对齐=“用户”),信号声道相对位置标签可用于指示使用波形来渲染具有大小的objectsource,使其锚定到场景中的某个对象(属性对齐=“对象”)。示例是钢琴的声音,其中一个信号声道主要包含较低的音符,另一个主要包含较高的音符。在这种情况下,位置标签应用于通过对象位置(中心)的平面上的矩形,该矩形在观察objectsource的正面时垂直于objectsource的取向(必须存在objectsource的“取向”属性)。在渲染过程中,标签指示的位置然后被投影到用户观察平面(与观察向量正交的平面),如图14a到14c所示。这也可能意味着将声源(可能有范围)彼此“放在后面”(从侧面看钢琴时,请参见图14c)甚至交换它们(从后面看钢琴时)。
[0200]
因此,进一步的示例如下:
[0201]
《inputlayout alignment=”user”positioning=”l r”/》
[0202]
表示使用2个波形来渲染源的水平宽度。
[0203]
《inputlayout alignment=”user”positioning=”b t”/》
[0204]
表示使用2个波形来渲染源的垂直宽度。
[0205]
《inputlayout alignment=”user”positioning=”bl tl tr br”/》
[0206]
表示使用4个波形来渲染源的水平和垂直宽度。
[0207][0208]
表示使用2个波形来渲染钢琴对象的左和右。
[0209]
在图14a所示的示例中,给出了如图13的表格所示的某个声道位置“地图”。在该示
例中,多声道信号是双声道信号,其具有用于左侧部分的左声道或第一声道,其中具有更多地从钢琴的低音或左侧部分记录或合成的声音,以及具有更多地从钢琴右侧部分的较高音符记录或合成声音的右声道或第二声道。
[0210]
在图14b的实施例中,图1或图9的声音位置计算器140使用取决于收听位置即,观察者的投影平面计算外围声源的位置,例如钢琴的四个角,如图14b所示。可替代地,声音位置计算器仅计算左侧位置,例如,在钢琴矩形的左侧中间的位置和在钢琴矩形的右侧中间的右侧位置。
[0211]
对于渲染,渲染器160根据锚定模式和定位信息,将第一声道用于图14b中左侧的单个外围声源或用于左侧的上位置和下位置。此外,根据锚定模式和定位信息,渲染器160将第二声道用于图14b中右侧的单个外围声源或用于右侧的上位置和下位置。例如,此选择可以由图1的渲染器示例的块164执行。
[0212]
在不同于图14b的情况下,其中观察者以与图14b相同的角度和距离定位在钢琴后面,图1或图9的声音位置计算器140根据收听位置,即观察者使用投影平面进行计算外围声源的位置,例如与图14b相关的钢琴的四个后角或仅左侧位置,例如在钢琴矩形左侧的中间和钢琴矩形右侧中间的右侧位置。
[0213]
现在,与前述情况相比,渲染器160根据锚定模式和定位信息,将第一声道用于图14b中右侧的单个外围声源或用于右侧的上位置和下位置(与上面概述的左侧相比)。此外,根据锚定模式和定位信息,渲染器160将第二声道用于图14b中左侧的单个外围声源或左侧的上位置和下位置(与上面概述的右侧相比)。例如,此选择可以由图1的渲染器示例的块164执行。
[0214]
具体情况如图14b所示,用户站在钢琴一侧的位置。在本实施例中,用于所有外围声源的波形可以是相同的,并且此波形是通过将左声道或第一声道与右声道或第二声道相加来计算的。这种相加可以包括加权相加,使得在图14c的实施例中,其中用户更多地站在钢琴的左侧,左声道的权重因子大于右声道的权重因子,因为由于与左声道相比与用户的距离更长,并且例如由于由物体,即钢琴本身引起的衰减,右声道会稍微低一些。例如,可以由图1的渲染器示例的块164执行来自传输的声道的这种计算。
[0215]
如果用户位于钢琴的右侧,情况与上面概述的类似,但在加权加法的情况下交换了加权因子。此计算和加权因子的确定可以例如由图1的渲染器示例的块164执行。
[0216]
注意,钢琴只是示例。任意空间扩展声源可以表示为使用图13的示例性约定,如图14a至图14c中示意性地示出的矩形或任何其他诸如类椭圆体边界或块表示。
[0217]
为了不属于本发明的部分的比较目的,对于用户模式和上述示例,考虑将声道映射到外围声源的波形。在图14b中,映射将与对象模式相同,因为当观察者站在对象前面时,左右不会改变。但是,在听者位于对象后面的示例中,情况会相反,即用户模式与对象模式相比会有所不同。对于图14c的实施例也是如此。在用户模式而不是对象模式的情况下,不会发生任何(例如,加权)加法,但左声道将用于左外围声源位置,并且右声道将用于右外围声源位置。
[0218]
在将听者放置在钢琴对角线的情况下,诸如在图14b和图14c中的位置“之间”的位置,声源的波形可以在对象锚定模式情况下通过左声道和右声道的某种混合来计算。左外围声源的波形将是由添加到由较低权重加权的右声道或第二声道的较大权重加权的第一
或左声道。可以基于观察者相对于对象的角度来调整权重,从而将发生从图14b的情况到图14c的情况(通常对于两个声道具有相同权重)的权重的连续变化。此计算以及权重的确定可以例如由图1的渲染器示例的块164执行。
[0219]
此外,在声道少于声源数量的情况下,可以通过去相关器诸如图9中的166来生成附加声源。在图14c的实施例中,可以对从左和右的总和导出的相加波形进行去相关例如,对于图14c中投影平面的四个角的四个外围声源,以获得稍微不同的波形。
[0220]
在这样的实施例中,空间扩展声源与具有第一声道和第二声道的多声道信号相关联,第一声道与空间扩展对象的第一部分相关联,并且第二声道与空间扩展对象的第二部分相关联,其中第一部分与第二部分不同,并且其中特定信息(320)指示相对于空间扩展声源的固定位置和/或取向渲染至少两个声源。然后,渲染器(160)被配置为使用第一声道和第二声道到不同位置的映射或使用第一声道和第二声道相加来确定不同位置的不同的声音信号以根据听者位置以及空间扩展声源的第一部分和第二部分获得不同位置的不同的声音信号。
[0221]
在这样的实施例中,第一部分是空间扩展声源的左部分,第二部分是右部分。
[0222]
当听者位置在空间扩展声源前面时(图14b),渲染器被配置为对于用户左侧的声源位置使用第一声道,并对于用户右侧的声源位置使用第二声道。
[0223]
替代地或附加地,当听者位置在空间扩展声源后面时(与图14b相对),渲染器被配置为对于用户左侧的声源位置使用第二声道并且对于用户右侧的位置,使用第一声道。
[0224]
替代地或附加地,当听者位置在空间扩展声源的一侧时(图14c),渲染器被配置为对于用户左侧的声源位置使用第一声道和第二声道的相加,并且对于用户右侧的位置,使用第一声道和第二声道的相加。
[0225]
备选地或附加地,当听者位置在空间扩展声源的一侧时,渲染器被配置为对于用户左侧的声源位置使用第一声道和第二声道的加权相加,并且对于用户右侧的位置,使用第一声道和第二声道的加权相加,其中加权相加的加权因子被确定为使得与距离听者位置更近的空间扩展声源的一部分相关联的声道的加权因子大于距离听者位置更远的空间扩展声源的另一部分相关联的另一个声道的加权因子(图14b,l的权重大于r的权重;与图14b相对,r的权重大于l的权重)。
[0226]
替代地或附加地,当听者位置相对于空间扩展声源倾斜时,渲染器被配置为对于用户左侧的声源位置使用第一声道和第二声道的第一加权相加,并且对于用户右侧的位置,使用第一声道和第二声道的第二加权相加,其中加权相加的加权因子被确定为使得更靠近声源位置的空间扩展声源的一部分相关联的声道的加权因子大于与距离声源位置更远的空间扩展声源的另一部分相关联的另一声道的加权因子(位置在图14b和图14c“之间”;对于投影的左声源,左声道的权重大于右声道的权重,对于投影的右声源,左声道的权重低于右声道的权重)。
[0227]
在此要提及的是,之前讨论的所有替代方案或方面以及由以下权利要求中的独立权利要求定义的所有方面都可以单独使用,即,除了预期的替代方案、目标或独立权利要求之外,没有任何其他替代方案或目标。然而,在其他实施例中,替代方案或方面或独立权利要求中的两个或更多个可以彼此组合,并且在其他实施例中,所有方面或替代方案和所有独立权利要求可以彼此组合。
applications.speech and audio processing,ieee transactions on,11(6),s.520
–
531.
[0246]
kendall,g.s.(1995).the decorrelation of audio signals and its impact on spatial imagery.computer music journal,19(4),s.p 71-87.
[0247]
lauridsen,h.(1954).experiments concerning different kinds of room-acoustics recording.ingenioren,47.
[0248]
t.,santala,o.,&pulkki,v.(2014).synthesis of spatially extended virtual source with time-frequency decomposition of mono signals.journal of the audio engineering society,62(7/8),s.467
–
484.
[0249]
potard,g.(2003).a study on sound source apparent shape and wideness.
[0250]
potard,g.,&burnett,i.(2004).decorrelation techniques for the rendering of apparent sound source width in 3d audio displays.
[0251]
pulkki,v.(1997).virtual sound source positioning using vector base amplitude panning.journal of the audio engineering society,45(6),s.456
–
466.
[0252]
pulkki,v.(1999).uniform spreading of amplitude panned virtual sources.
[0253]
pulkki,v.(2007).spatial sound reproduction with directional audio coding.j.audio eng.soc,55(6),s.503
–
516.
[0254]
pulkki,v.,laitinen,m.-v.,&erkut,c.(2009).efficient spatial sound synthesis for virtual worlds.
[0255]
schlecht,s.j.,alary,b.,v.,&habets,e.a.(2018).optimized velvet-noise decorrelator.
[0256]
schmele,t.,&sayin,u.(2018).controlling the apparent source size in ambisonics unisng decorrelation filters.
[0257]
schmidt,j.,&e.f.(2004).new and advanced features for audio presentation in the mpeg-4 standard.
[0258]
verron,c.,aramaki,m.,kronland-martinet,r.,&pallone,g.(2010).a 3-d immersive synthesizer for environmental sounds.audio,speech,and language processing,ieee transactions on,title=a backward-compatible multichannel audio codec,18(6),s.1550
–
1561.
[0259]
zotter,f.,&frank,m.(2013).efficient phantom source widening.archives of acoustics,38(1),s.27
–
37.
[0260]
zotter,f.,frank,m.,kronlachner,m.,&choi,j.-w.(2014).efficient phantom source widening and diffuseness in ambisonics.
技术特征:1.一种用于再现在空间中具有定义的位置或取向和几何形状的空间扩展声源的装置,所述装置包括:接口(100),用于接收听者位置;投影仪(120),用于使用听者位置、关于空间扩展声源的几何形状信息和关于空间扩展声源的位置信息来计算与空间扩展声源相关联的二维或三维包壳在投影平面上的投影;声音位置计算器(140),用于使用投影平面计算空间扩展声源的至少两个声源的位置;以及渲染器(160),用于在所述位置处渲染所述至少两个声源,以获得具有两个或更多个输出信号的空间扩展声源的再现,其中渲染器(160)被配置为针对不同的位置使用不同的声音信号,其中所述不同的声音信号与所述空间扩展声源相关联,其中,所述渲染器(160)被配置为响应于接收到的特定信息(320),相对于所述空间扩展声源的固定位置和/或取向来渲染所述至少两个声源。2.根据权利要求1所述的装置,其中检测器被配置为使用跟踪系统检测空间中的瞬时听者位置,或者其中接口(100)被配置为使用经由接口输入的位置数据。3.根据权利要求1或2所述的装置,被配置用于接收场景描述,所述场景描述包括关于所定义的位置或取向的信息和关于空间扩展声源的所定义的几何形状的信息,以及与空间扩展声源相关联的至少一个声音信号,其中所述装置进一步包括场景描述解析器(180),用于解析场景描述以检索关于所定义的位置(341)或取向的信息、关于所定义的几何形状(331)和至少一个声源信号(301,302)的信息,或者其中,对于空间扩展声源,场景描述包括至少两个基本声音信号(301、302)和用于每个基本声音信号的相对于关于空间扩展声源的几何形状(331)的信息的位置信息(321),并且其中声音位置计算器(140)被配置为在使用投影平面计算至少两个声源的位置时使用至少两个基本信号的位置信息。4.根据前述权利要求中的一项所述的装置,其中,投影仪(120)被配置为使用关于空间扩展声源的几何形状(331)的信息来计算空间扩展声源的包壳,并使用听者位置或取向atf在朝向听者的方向上投影包壳以获得二维或三维包壳在投影平面上的投影,或者其中,投影仪(120)被配置为在朝向听者位置的方向上投影由关于空间扩展声源的几何形状(331)的信息定义的空间扩展声源的几何形状,并计算投影的几何形状的包壳,以获得二维或三维包壳在投影平面上的投影。5.根据前述权利要求中的一项所述的装置,其中,声音位置计算器(140)被配置为根据包壳投影数据和听者位置计算空间中的声源位置。6.根据前述权利要求中的一项所述的装置,其中声音位置计算器(140)被配置为计算所述位置,以使得至少两个声源是外围声源并且位于投影平面上,或者其中声音位置计算器(140)被配置用于计算使得所述外围声源中的外围声源的位置相
对于听者位于投影平面的右侧和/或相对于听者位于投影平面的左侧,和/或相对于听者位于投影平面的顶部和/或相对于听者位于投影平面的底部。7.根据前述权利要求中的一项所述的装置,其中渲染器(160)被配置为使用以下渲染至少两个声源根据声源的位置进行平移操作,以获得用于预定义扬声器设置的扬声器信号,或者根据源的位置使用头部相关传递函数进行双耳渲染操作,以获得耳机信号。8.根据前述权利要求中的一项所述的装置,其中第一数量的相关源信号与空间扩展声源相关联,所述第一数量是一或大于一,其中所述相关源信号与相同的空间扩展声源相关,其中声音位置计算器(140)确定用于渲染空间扩展声源的第二数量的声源,所述第二数量大于一,以及其中,所述渲染器(160)包括一个或多个去相关器(166),用于当所述第二数量大于所述第一数量时从所述第一数量的一个或多个源信号(164)生成去相关信号。9.根据前述权利要求中的一项所述的装置,其中,接口(100)被配置为接收听者在空间中的时变位置,其中投影仪(120)被配置为计算空间中的时变投影,其中,声音位置计算器(140)被配置为计算声源的时变数量或声源在空间中的时变位置,以及其中,渲染器(160)被配置为在空间中的所述时变位置处渲染所述时变数量的声源或所述至少两个声源。10.根据前述权利要求中的一项所述的装置,其中,接口(100)被配置为在六个自由度中接收听者位置,以及其中,投影仪(120)被配置为根据六个自由度计算投影。11.根据前述权利要求中的一项所述的装置,其中,所述投影仪(120)被配置为将投影计算为图像平面,诸如垂直于听者视线的平面,或者将投影计算为围绕听者头部的球面,或者将投影计算为位于距听者头部中心预定距离处的投影平面,或者从方位角和仰角计算空间扩展声源的凸包的投影,所述方位角和仰角是从相对于听者头部的透视的球坐标导出的。12.根据前述权利要求中的一项所述的装置,其中,声音位置计算器(140)被配置为计算所述位置,使得所述位置均匀分布在包壳投影的周围,或者使得所述位置位于包壳投影的极值点或外围点,或者使得这些位置位于包壳投影的水平或垂直的极值点或外围点。13.根据前述权利要求中的一项所述的装置,其中,声音位置计算器(140)被配置为除了确定外围声源的位置之外,还确定相对于听者位于包壳投影之上或之前或之后或之内的辅助声源的位置。14.根据前述权利要求中的一项所述的装置,其中,投影仪(120)被配置为额外地在不同的方向上,诸如在水平方向和垂直方向上,诸如朝向包壳或投影的重心,以一变量或预定量或者以不同的变量或预定量收缩包壳的投
影。15.根据前述权利要求中的一项所述的装置,其中,所述声音位置计算器(140)被配置为进行计算,以使得至少一个附加辅助声源相对于听者位置位于左外围声源和右外围声源之间的投影平面上,或者其中声音位置计算器(140)被配置用于计算使得至少一个附加辅助声源相对于听者位置位于左外围声源和右外围声源之间的投影平面上,其中单个附加辅助声源位于左外围声源和右外围声源之间的中间,或者两个或更多个附加辅助声源等距放置在左外围声源和右外围声源之间。16.根据前述权利要求中的一项所述的装置,其中,声音位置计算器(140)被配置为经由接口在接收到听者围绕空间扩展声源的圆周运动的情况下,或者在经由接口接收到相对于静止听者的空间扩展声源的旋转的情况下,优选地围绕投影的重心执行声源位置的旋转。17.根据前述权利要求中的一项所述的装置,其中,渲染器(160)被配置为针对每个声源接收取决于听者与声源之间的距离的张角,并根据所述张角渲染声源。18.根据前述权利要求中的一项所述的装置,其中,渲染器(160)被配置为接收每个声源的距离信息,以及其中,渲染器(160)被配置为根据所述距离来渲染声源,使得与放置得离听者不那么近并且具有相同音量的声源相比,以更大的音量渲染放置得更靠近听者的声源。19.根据前述权利要求中的一项所述的装置,其中,所述声音位置计算器(140)被配置为对于每个声源,确定距离,所述距离等于空间扩展声源相对于听者的距离,或者通过将声源的位置在投影到空间扩展声源的几何形状上的反投影来确定每个声源的距离,以及其中,渲染器(160)被配置为使用关于距离的信息来生成声源。20.根据前述权利要求中的一项所述的装置,其中,关于几何形状(331)的信息被定义为一维直线或曲线,二维区域,诸如椭圆、矩形或多边形,或者一组多边形,或者三维体,诸如椭圆体、长方体或多面体,和/或其中,所述信息被定义为参数描述或多边形描述或多边形描述的参数表示。21.根据前述权利要求中的一项所述的装置,其中声音位置计算器(140)被配置为根据听者到空间扩展声源的距离来确定声源的数量,其中与对于听者与空间扩展声源之间的较大距离的较小数量相比,对于较小距离,声源的数量较高。22.根据前述权利要求中的一项所述的装置,被配置用于接收关于由所述空间扩展声源引入的传播的信息,以及其中,投影仪(120)被配置为使用所述关于传播的信息对包壳或投影应用收缩操作,以至少部分地补偿传播。23.根据前述权利要求中的一项所述的装置,其中,渲染器(160)被配置为在所定义的容差范围内声源的位置彼此相同的情况下,通
过组合与空间扩展声源相关联的基本信号来渲染声源,例如使用givens旋转来获得旋转的基本信号并在位置处渲染旋转的基本信号。24.根据前述权利要求中的一项所述的装置,其中,空间扩展声源与具有第一声道和第二声道的多声道信号相关联,第一声道与空间扩展对象的第一部分相关联,以及第二声道与空间扩展对象的第二部分相关联,其中,第一部分不同于第二部分,并且其中特定信息(320)指示相对于空间扩展声源的固定位置和/或取向渲染至少两个声源,以及其中,渲染器(160)被配置为使用第一声道和第二声道到不同位置的映射或使用第一声道和第二声道的相加来确定不同位置的不同的声音信号,以根据听者位置以及空间扩展声源的第一部分和第二部分,获得不同位置的不同的声音信号。25.根据权利要求24所述的装置,其中,第一部分是空间扩展声源的左部分,第二部分是右部分,其中,当听者位置在空间扩展声源的前面时,渲染器被配置为对于用户左侧的声源位置使用第一声道,对于用户右侧的位置使用第二声道,或者其中,当听者位置在空间扩展声源的后面时,渲染器被配置为对于用户左侧的声源位置使用第二声道,对于用户右侧的位置使用第一声道,或者其中,当听者位置在空间扩展声源的一侧时,渲染器被配置为对于用户左侧的声源位置,使用第一声道和第二声道的相加,并且对于用户右侧的位置,使用第一声道和第二声道的相加,或者其中,当听者位置在空间扩展声源的一侧时,渲染器被配置为,对于用户左侧的声源位置,使用第一声道和第二声道的加权相加,并且对于用户右侧的位置,使用第一声道和第二声道的加权相加,其中确定用于加权相加的加权因子,使得与更靠近听者位置的空间扩展声源的部分相关联的声道的加权因子大于与更远离听者位置的空间扩展声源的另一部分相关联的另一声道的加权因子,或者其中,当听者位置相对于空间扩展声源倾斜时,渲染器被配置为对于用户左侧的声源位置,使用第一声道和第二声道的第一加权相加,并且对于用户右侧的位置,使用第一声道和第二声道的第二加权相加,其中加权相加的加权因子被确定为使得与更靠近声源位置的空间扩展声源的部分相关联的声道的加权因子大于与更远离声源位置的空间扩展声源的另一部分相关联的另一声道的加权因子。26.根据前述权利要求中的一项所述的装置,被配置用于接收对空间扩展声源的描述,所述描述包括描述元素(311),所述描述元素(311)指示包括在描述中的空间扩展声源的不同的声音信号或由装置接收的编码音频信号的第一数量,数字是一或大于一,读取描述元素(311)并检索包括在描述中或编码音频信号中的空间扩展声源的第一数量的不同的声音信号,以及其中声音位置计算器(140)确定用于渲染空间扩展声源的第二数量的声源,第二数量大于一,以及其中,渲染器(160)被配置为根据从描述中提取的第一数量生成(164、166)第三数量的一个或多个去相关信号,第三数量是从第二数量和第三数量之间的差得出的,或者
接收指示空间扩展声源的一个或多个不同的声音信号绝对锚定到空间扩展声源的位置或取向的标志或位流或描述元素或信息,并且其中渲染器(160)被配置为响应于作为接收到的特定信息的描述元素或标志或信息,相对于空间扩展声源的固定位置和/或取向渲染至少两个声源,或者接收在一种状态下指示空间扩展声源的一个或多个不同的声音信号的到空间扩展声源的位置或取向的绝对锚定、并且在另一种状态下指示另一处理的标志或位流或描述元素或信息,并且其中渲染器(160)被配置为响应于指示所述一种状态的标志或位流元素或信息相对于空间扩展声源的固定位置和/或取向来渲染至少两个声源,并且在另一种状态下在另一种不同的模式中渲染所述至少两个声源。27.一种用于生成空间扩展声源的描述的装置,所述装置包括:声音提供器(200),用于为空间扩展声源提供一个或多个不同的声音信号;几何形状提供器(220),用于计算关于空间扩展声源的几何形状的信息(331,341);以及输出数据形成器(240),用于生成描述,所述描述包括一个或多个不同的声音信号,以及关于几何形状的信息(331,341),其中输出数据形成器(240)被配置为将指示空间扩展声源的一个或多个不同的声音信号到空间扩展声源的位置或取向的绝对锚定的信息或描述元素(322)或标志引入到所述描述中。28.根据权利要求27所述的装置,其中,关于几何形状的信息(331,341)包括指示空间扩展声源在空间中的位置的位置信息(341)。29.根据权利要求27或28所述的装置,包括:其中,输出数据形成器(240)被配置用于将关于一个或多个不同的声音信号中的每个声音信号的个体位置的信息(321)引入到描述中,使得所述关于个体位置的信息(321)表示相应声音信号的位置。30.根据权利要求27、28或29所述的装置,其中,所述声音提供器(200)被配置为提供用于空间扩展声源的至少两个不同的声音信号,并且其中输出数据形成器(240)被配置用于生成描述,使得所述描述包括至少两个不同的声音信号(301、302)和所述至少两个不同的声音信号中的每个声音信号相对于关于空间扩展声源的几何形状(331)的信息的个体位置信息(321)。31.根据权利要求27至30中任一项所述的装置,其中,所述声音提供器(200)被配置为在单个或多个麦克风位置或取向执行自然声源的记录,或者通过一个或多个去相关滤波器从单个或多个基本信号中导出声音信号。32.根据权利要求27至31中任一项所述的装置,其中声音提供器(200)被配置为使用音频信号编码器(260)对所述一个或多个声音信号进行位速率压缩,以及其中,输出数据形成器(240)被配置为将经位速率压缩的一个或多个声音信号(301、302)用于空间扩展声源。33.根据权利要求27至32中任一项所述的装置,其中所述几何形状提供器(220)被配置为从所述空间扩展声源的几何形状导出参数描述或多边形描述或多边形描述的参数表示,
并且其中输出数据形成器(240)被配置为将参数描述或多边形描述或多边形描述的参数表示引入到描述中作为关于几何形状的信息(331,341)。34.根据权利要求27至33中中任一项所述的装置,其中,所述输出数据形成器(240)被配置为将描述元素(311)引入到所述描述中,所述描述元素(311)指示用于包括在描述中或包括在与描述相关联的编码音频信号中的空间扩展声源上的所述一个或多个不同的声音信号的数量,数量为一或大于一。35.根据权利要求27至33中任一项所述的装置,其中,指示空间扩展声源的一个或多个不同的声音信号的绝对锚定的所述标志或描述元素或信息是指空间扩展声源的绝对位置和/或绝对取向,或者其中语法元素包括相对声道位置,并且其中描述元素包括标志或前缀或特定字母,诸如指示锚定的字母“a”,或者其中声音提供器(200)被配置用于为空间扩展声源提供至少两个不同的声音信号,并且其中标志或描述元素或信息与至少两个不同的声音信号相关联,或者其中,所述至少两个不同的声音信号与关联于钢琴的左侧部分的第一声道和关联于钢琴的右侧部分的第二声道相关。36.一种用于再现在空间中具有定义的位置或取向和几何形状的空间扩展声源的方法,所述方法包括:接收听者位置;使用听者位置、关于空间扩展声源的几何形状信息(331)和空间扩展声源的位置(341)信息来计算与空间扩展声源相关联的二维或三维包壳在投影平面上的投影;使用投影平面计算空间扩展声源的至少两个声源的位置;以及在所述位置处渲染至少两个声源,以获得具有两个或更多个输出信号的空间扩展声源的再现,其中渲染包括针对不同位置使用不同的声音信号,其中不同的声音信号与空间扩展声源相关联,其中,所述渲染包括响应于接收到的特定信息,相对于所述空间扩展声源的固定位置和/或取向渲染所述至少两个声源。37.一种用于生成空间扩展声源的描述的方法,所述方法包括:为空间扩展声源提供一个或多个不同的声音信号;提供关于空间扩展声源的几何形状的信息(331,341);以及生成描述,所述描述包括一个或多个不同的声音信号(301、302),以及关于空间扩展声源的几何形状的信息(331,341),其中所述生成包括,将指示空间扩展声源的一个或多个不同的声音信号到空间扩展声源的位置或取向的绝对锚定的标志、描述元素(322)或信息引入到所述描述中。38.根据权利要求37所述的方法,其中关于空间扩展声源的几何形状的信息(331,341)包括空间扩展声源在空间中的位置信息(341)。39.根据权利要求37或38所述的方法,其中,生成描述包括,将关于一个或多个不同的声音信号(301、302)中的每个声音信号的个体位置的信息(321)引入到描述中。40.根据权利要求37、38或39所述的方法,其中所述提供包括,提供用于所述空间扩展
声源的至少两个不同的声音信号,并且其中执行所述生成描述,使得所述描述包括至少两个不同的声音信号(301、302)和所述至少两个不同的声音信号中的每个声音信号的个体位置信息(321),使得所述信息指示对应声音信号相对于关于空间扩展声源的几何形状(331,341)的信息的位置。41.根据权利要求37至40中的一项所述的方法,其中,所述生成描述包括将描述元素(311)引入到描述中,所述描述元素(311)指示用于包括在描述中或包括在与描述相关联的编码音频信号中的空间扩展声源上的一个或多个不同的声音信号(301、302)的数量,数量为一或大于一。42.一种用于空间扩展声源的描述,包括:用于空间扩展声源的一个或多个不同的声音信号(301、302);以及关于空间扩展声源的几何形状(331,341)的信息;以及指示空间扩展声源的一个或多个不同的声音信号到空间扩展声源的位置或取向的绝对锚定的标志或描述元素或信息。43.根据权利要求42所述的描述,进一步包括:在两个或更多个不同的声音信号的情况下,两个或更多个不同的声音信号的每个声音信号的个体位置信息(301、302)指示对应声音信号的位置。44.根据权利要求42或43所述的描述,进一步包括:关于一个或多个不同的声音信号中的每个声音信号的个体位置(321)的信息,其中关于个体位置(321)的信息指示相对于关于空间扩展声源的几何形状的信息(331,341)的对应声音信号的位置。45.根据权利要求42、43或44所述的描述,其中关于空间扩展声源的几何形状(331,341)的信息包括关于空间扩展声源的位置信息(341)。46.根据权利要求42至45中的一项所述的描述,包括:用于第一声音信号(301)的第一位置信息(321),指示对应声音信号相对于关于空间扩展声源的几何形状(331,341)的信息的第一位置;以及用于第二声音信号(302)的第二位置信息(321),指示对应声音信号相对于空间扩展声源的几何形状(331341)的信息的第二位置,第二位置信息不同于第一位置信息。47.根据权利要求41至46中的一项所述的描述,进一步包括另外的描述元素(311),其指示用于包括在所述描述中或者包括在与所述描述相关联的编码的音频信号中的用于所述空间扩展声源的所述至少一个不同的声音信号的数量,数量是一或大于一。48.一种计算机程序,用于当在计算机或处理器上运行时执行根据权利要求36至41中任一项所述的方法。
技术总结用于在空间中再现具有定义的位置或取向和几何形状的空间扩展声源的装置,装置包括用于接收听者位置的接口(100);用于使用听者位置、关于空间扩展声源的几何形状信息和关于空间扩展声源的位置信息计算与空间扩展声源相关联的二维或三维包壳在投影平面上的投影的投影仪(120);用于使用投影平面计算空间扩展声源的至少两个声源的位置的声音位置计算器(140);以及用于在位置处渲染至少两个声源以获得具有两个或更多个输出信号的空间扩展声源的再现的渲染器(160),其中渲染器(160)被配置为针对不同的位置使用不同的声音信号,其中不同的声音信号与空间扩展声源相关联,并且其中渲染器(160)被配置为响应于接收到的特定信息相对于空间扩展声源的固定位置和/或取向来渲染至少两个声源。渲染至少两个声源。渲染至少两个声源。
技术研发人员:于尔根
受保护的技术使用者:弗劳恩霍夫应用研究促进协会
技术研发日:2021.01.13
技术公布日:2022/11/1