回声延迟估计方法、装置、存储介质和电子设备与流程

专利2024-11-24 92

1.本发明涉及通信技术领域，具体涉及一种回声延迟估计方法、装置、存储介质和电子设备。

背景技术：

2.在音频系统中，因为扬声器和麦克风的耦合，不可避免的产生声学回声。声学回声经过信道延迟后传回给对端说话者，影响音频通话质量。回声消除(acoustic echo cancellation，aec)作为实时通讯中重要的技术，是保证音视频体验的关键点。目前普遍的aec算法包含延迟估计、自适应滤波和非线性处理三个主要算法。aec在实际应用中会受到由于系统带来的远端音频信号(例如扬声器播放的信号，即参考信号)和近端音频信号(例如麦克风采集的信号)的相对回声延迟的不可控影响。为保证系统延迟不影响aec效果，需要对回声延迟进行估计，并根据估计得到的结果补偿远端音频信号和近端音频信号的相对回声延迟，从而保证aec的工作效果良好。
3.利用回声消除技术在进行回声消除处理时，能够处理的回声延迟的数值范围(通常用毫秒计数)通常是有限的，只能够有效处理处于一定数值范围内的回声延迟。当回声延迟的数值过大时则会对回声消除处理的性能造成极大地减弱。因此，在采用回声消除技术消除音频信号的回声之前，利用有效、精准的延迟估计算法来准确估计出音频信号的回声延迟，则变的非常有意义。
4.相关技术的延迟估计算法大多采用麦克风采集信号和参考信号之间的相关性或者相干性来求得，缺点是需要缓存足够长的数据量以便求解相关/相干性，占用内存；同时在信噪比低的情况下算法准确率很低，得出错误的延迟结果严重影响回声消除效果。
5.因此，有必要提供改进的技术方案以克服现有技术中存在的以上技术问题。

技术实现要素：

6.为了解决上述技术问题，本发明提供了一种回声延迟估计方法、装置、存储介质和电子设备，采用改进的shazam算法结合gcc(广义互相关)算法综合应用到回声消除算法的延迟估计算法中，可以快速的找到回声延迟的位置或范围，且准确率高，占用内存少，计算量小，鲁棒性和抗噪能力强。
7.根据本公开第一方面，提供了一种回声延迟估计方法，包括：分别从近端音频信号和远端音频信号中提取至少一个具有第一时长的近端音频数据块和远端音频数据块，并生成每个近端音频数据块和每个远端音频数据块的哈希表；
8.根据生成的每个近端音频数据块的哈希表和每个远端音频数据块的哈希表从所述近端音频信号和所述远端音频信号中定位出匹配的近端音频数据块和远端音频数据块；
9.根据匹配的近端音频数据块和远端音频数据块的信号相关性确定所述近端音频信号和所述远端音频信号的回声延迟。
10.可选地，每个近端音频数据块均包括多帧近端音频数据，每个远端音频数据块均
包括多帧远端音频数据；
11.生成每个近端音频数据块的哈希表的方法包括：计算近端音频数据块中每帧近端音频数据的哈希值，以根据每帧近端音频数据的哈希值生成对应的近端音频数据块的哈希表；
12.生成每个远端音频数据块的哈希表的方法包括：计算远端音频数据块中每帧远端音频数据的哈希值，以根据每帧远端音频数据的哈希值生成对应的远端音频数据块的哈希表。
13.可选地，计算获得每帧近端音频数据的哈希值的方法包括：
14.将所述近端音频数据块中的每帧近端音频数据转化至频域，以获得所述近端音频数据块中每帧近端音频数据的频谱；
15.根据所述近端音频数据块中每帧近端音频数据对应的频谱获得每帧近端音频数据的幅度的最大值；
16.根据每帧近端音频数据的幅度的最大值、所述最大值在该帧近端音频数据中的位置以及所述最大值对应的频点信息对应生成每帧近端音频数据的哈希值。
17.可选地，计算获得每帧远端音频数据的哈希值的方法包括：
18.将所述远端音频数据块中的每帧远端音频数据转化至频域，以获得所述远端音频数据块中每帧远端音频数据的频谱；
19.根据所述远端音频数据块中每帧远端音频数据对应的频谱获得每帧远端音频数据的幅度的最大值；
20.根据每帧远端音频数据的幅度的最大值、所述最大值在该帧远端音频数据中的位置以及所述最大值对应的频点信息对应生成每帧远端音频数据的哈希值。
21.可选地，将从所述远端音频信号中提取的第一个远端音频数据块作为参考信号，并将该远端音频数据块的哈希表依次与生成的每个近端音频数据块的哈希表进行比较，以确定匹配的近端音频数据块和远端音频数据块，
22.其中，匹配的近端音频数据块和远端音频数据块所各自对应的哈希表完全相同。
23.可选地，若该远端音频数据块的哈希值在依次与n个近端音频数据块的哈希值比较后仍未确定出匹配的近端音频数据块和远端音频数据块，则将从所述远端音频信号中提取的第二个远端音频数据块作为参考信号，并将该远端音频数据块的哈希表依次与生成的每个近端音频数据块的哈希表进行比较，以确定匹配的近端音频数据块和远端音频数据块，其中，n为预设值，且n为大于1的自然数。
24.可选地，计算匹配的近端音频数据块和远端音频数据块的信号相关性函数；
25.检测所述相关性函数的最大值以确定回声延迟。
26.根据本公开第二方面，提供了一种回声延迟估计装置，包括：
27.第一哈希表生成模块，被配置为生成近端音频信号中每个近端音频数据块的哈希表；
28.第二哈希表生成模块，被配置为生成远端音频信号中每个远端音频数据块的哈希表；
29.匹配模块，被配置为根据生成的近端音频数据块的哈希表和远端音频数据块的哈希表定位出匹配的近端音频数据块和远端音频数据块；
30.相关性模块，被配置为计算匹配的近端音频数据块和远端音频数据块的信号相关性函数；
31.延迟确定模块，被配置为根据所述相关性函数的最大值确定回声延迟。
32.根据本公开第三方面，提供了一种存储介质，包括：所述存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如上所述的回声延迟估计方法中的步骤。
33.根据本公开第四方面，提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的回声延迟估计方法中的步骤。
34.采用本发明的技术方案，能够快速的找到回声延迟的位置或范围，准确率高，占用内存少，计算量小，鲁棒性和抗噪能力强。
35.应当说明的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
36.图1示出根据本发明实施例提供的回声延迟估计方法的流程示意图；
37.图2示出根据本发明实施例提供的计算每帧近端音频数据的哈希值的方法流程示意图；
38.图3示出根据本发明实施例提供的计算每帧远端音频数据的哈希值的方法流程示意图；
39.图4示出根据本发明实施例提供的回声延迟估计装置的结构示意图；
40.图5示出根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
41.为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以通过不同的形式来实现，并不限于本文所描述的实施例。相反的，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
42.在进行以下说明之前，首先对本公开中使用的一些术语和原理进行说明。
43.声学回声消除(acoustic echo cancellation，aec)：通过自适应算法来调整滤波器的迭代更新系数估计出一个期望信号，使得该期望信号逼近经过实际回声路径的回声信号，然后从麦克风采集的混合信号中减去这个模拟回声，达到回声抵消的功能。
44.短时傅里叶变换(short time fourier transform，stft)：stft是一个用于语音信号处理的通用工具，它定义了一个非常有用的时间和频率分布类，指定了任意信号随时间和频率变化的复数幅度。计算短时傅里叶变换的过程是把一个较长的时间信号分成相同长度的更短的段,在每个更短的段上计算傅里叶变换，即傅里叶频谱。
45.图1示出根据本发明实施例提供的回声延迟估计方法的流程示意图。该方法可以应用于音频播放设备。例如，以下示出的步骤可以以软件的形式运行在音频播放设备上，来对该音频播放设备在用户的实时通讯过程中所播放的音频数据流中的音频帧进行回声延
迟估计处理。
46.如图1所示，本发明所提供的回声延迟估计方法，包括执行如下步骤：
47.在步骤s1中，分别从近端音频信号和远端音频信号中提取至少一个具有第一时长的近端音频数据块和远端音频数据块，并生成每个近端音频数据块和每个远端音频数据块的哈希表。
48.在音频播放设备上，可以搭载用于对音频数据流进行回声延迟处理的算法软件。当用户在进行实时通讯过程中，音频播放设备可以通过搭载的上述算法软件，对播放的音频数据流中的音频帧实时的进行回声延迟估计，并基于估计出的回声延迟，实时的进行回声消除，从而确保用户在实时通讯过程中，能够得到一个良好的音频通话效果。
49.在音频播放设备上，麦克风采集的近端音频信号以及扬声器播放的远端音频信号通常都是以一帧帧的音频数据形式进行的信号传递或收集。本发明示例在进行回声延迟估计时，首先分别从近端音频信号和远端音频信号中以第一时长进行相应的音频数据块的选取(包括至少提取一个近端音频数据端和一个远端音频数据块)，并利用改进的shazam算法来锁定相同的近端音频数据块和远端音频数据块，即可确定回声延迟的大概位置或大概范围，从而只需计算对应该范围的近端音频数据块和远端音频数据块的相关性即可获得准确的回声延迟。每次仅需对每个音频数据块对应的数据长度进行相应的计算处理，有利于降低数据计算的复杂度，减少计算量，也能够提高回声延迟的估计速度和准确度。其中，每个近端音频数据块均包括多帧近端音频数据，每个远端音频数据块均包括多帧远端音频数据。
50.对于提取到的每个近端音频数据块，在生成每个近端音频数据块的哈希表时均包括基于shazam算法计算该近端音频数据块中每帧近端音频数据的哈希值，从而通过获得的每帧近端音频数据的哈希值构建对应的近端音频数据块的哈希表。同理，对于提取到的每个远端音频数据块，在生成每个远端音频数据块的哈希表时均包括基于shazam算法计算该远端音频数据块中每帧远端音频数据的哈希值，从而通过获得的每帧远端音频数据的哈希值构建对应的远端音频数据块的哈希表。
51.图2示出根据本发明实施例提供的计算每帧近端音频数据的哈希值的方法流程示意图，图3示出根据本发明实施例提供的计算每帧远端音频数据的哈希值的方法流程示意图。
52.如图2所示，生成每帧近端音频数据的哈希值时包括执行步骤s101至步骤s103。如图3所示，生成每帧远端音频数据的哈希值时包括执行步骤s111至步骤s113。
53.具体地，在步骤s101中，将近端音频数据块中的每帧近端音频数据转化至频域，以获得近端音频数据块中每帧近端音频数据的频谱。
54.在步骤s111中，将远端音频数据块中的每帧远端音频数据转化至频域，以获得远端音频数据块中每帧远端音频数据的频谱。
55.可对该每个近端音频数据块和每个远端音频数据块进行分帧处理和短时傅里叶变换，以分别获得该近端音频数据块对应的近端频域信号序列和该远端音频数据块对应的远端频域信号序列，即可分别获得该近端音频数据块中每帧近端音频数据的频谱和该远端音频数据块中每帧远端音频数据的频谱，
56.near(n)＝stft(near(t))，
57.far(n)＝stft(far(t))，
58.其中，near(t)和far(t)分别表示近端音频数据块和远端音频数据块的时域信号，t为时间标记，near(n)和far(n)分别表示经过时频变换后由对应每帧的音频数据的频谱构成的近端频域信号序列和远端频域信号序列，n为正整数，表示帧编号。
59.在步骤s102中，根据近端音频数据块中每帧近端音频数据对应的频谱获得每帧近端音频数据的幅度的最大值。在步骤s103中，根据每帧近端音频数据的幅度的最大值、最大值在该帧近端音频数据中的位置以及最大值对应的频点信息对应生成每帧近端音频数据的哈希值。
60.在步骤s112中，根据远端音频数据块中每帧远端音频数据对应的频谱获得每帧远端音频数据的幅度的最大值。在步骤s113中，根据每帧远端音频数据的幅度的最大值、最大值在该帧远端音频数据中的位置以及最大值对应的频点信息对应生成每帧远端音频数据的哈希值。
61.对于一帧近端音频数据，分别从该帧近端音频数据的频谱中获得其幅度或功率的最大值、该最大值在该帧音频数据的时域信号中的位置(例如该帧音频数据在哪一时刻出现的该最大值)，以及该最大值对应的频点(即频率值)等信息，并根据获得的上述信息生成该帧近端音频数据的哈希值。获得近端音频数据块中每帧近端音频数据的频谱后，对每帧近端音频数据均执行上述相同的操作，即可获得该近端音频数据块中每帧远端音频数据的哈希值，从而可基于每帧远端音频数据的哈希值构建该近端音频数据块的哈希表，实现以哈希表对近端音频数据块的表征。
62.同理，对于一帧远端音频数据，分别从该帧远端音频数据的频谱中获得其幅度或功率的最大值、该最大值在该帧音频数据的时域信号中的位置(例如该帧音频数据在哪一时刻出现的该最大值)，以及该最大值对应的频点(即频率值)等信息，并根据获得的上述信息生成该帧远端音频数据的哈希值。获得远端音频数据块中每帧远端音频数据的频谱后，对每帧远端音频数据均执行上述相同的操作，即可获得该远端音频数据块中每帧远端音频数据的哈希值，从而可基于每帧远端音频数据的哈希值构建该远端音频数据块的哈希表，实现以哈希表对远端音频数据块的表征。
63.在步骤s2中，根据生成的每个近端音频数据块的哈希表和每个远端音频数据块的哈希表从近端音频信号和远端音频信号中定位出匹配的近端音频数据块和远端音频数据块。
64.本实施例中，可将从远端音频信号中提取的第一个远端音频数据块作为参考信号，并将该远端音频数据块的哈希表依次与生成的每个近端音频数据块的哈希表进行比较，以确定匹配的近端音频数据块和远端音频数据块。其中，匹配的近端音频数据块和远端音频数据块所各自对应的哈希表完全相同，包括各自的哈希表中的每个一一对应的哈希值均相同。
65.具体地，可先仅从远端音频信号中提取一个远端音频数据块作为参考信号，并计算其哈希表。同时，每从近端音频信号中提取一个近端音频数据块并计算其哈希表后，均与该参考信号的哈希表进行比较，以定位出匹配的近端音频数据块和远端音频数据块。若二者不完全相同，则表示当前提取的近端音频数据块和作为参考信号的远端音频数据块不匹配，并继续从近端音频信号中提取下一个近端音频数据块和计算其哈希表后与该参考信号
的哈希表进行比较，直至定位出匹配的近端音频数据块和远端音频数据块；若二者完全相同，则表示当前提取的近端音频数据块和作为参考信号的远端音频数据块匹配，并停止对下一个近端音频数据块的提取，以及继续执行步骤s3。
66.作为一个优选地实施例，在从远端音频信号中提取一个远端音频数据块作为参考信号后，还包括继续从远端音频信号中提取下一个远端音频数据块并进行缓存。以及每生成一个近端音频数据块的哈希表后，还包括对该哈希表进行缓存。若从远端音频信号中提取的作为参考信号的第一个远端音频数据块的哈希值在依次与n个近端音频数据块的哈希值比较后仍未确定出匹配的近端音频数据块和远端音频数据块，则将从所述远端音频信号中提取并缓存的第二个远端音频数据块作为参考信号，并将该作为参考信号的远端音频数据块的哈希表依次与缓存的每个近端音频数据块的哈希表进行比较，直至定位出匹配的近端音频数据块和远端音频数据块。如此，可避免出现当因为某些原因导致从远端音频信号中提取一个远端音频数据块损坏或信息不完整时导致无法完成匹配的情况，也有利于降低数据处理量。其中，n为预设值，且n为大于1的自然数。
67.可以理解，在所构建的每个近端音频数据块的哈希表中，每个哈希值均对应表征唯一的一帧近端音频数据。以及在所构建的每个远端音频数据块的哈希表中，每个哈希值均对应表征唯一的一帧远端音频数据，因此当两个哈希表中的每个哈希值都一一对应的相同时，表示该两个哈希表也对应相同，此时可认为对应该两个哈希表的音频数据块时匹配的。进而通过比对每个近端音频数据块的哈希表和远端音频数据块的哈希表，即可快速的定位出匹配的近端音频数据块和远端音频数据块，也即能够快速的定位出回声延迟的大概位置或范围。
68.本实施例中，近端音频信号中相邻的两个近端音频数据块可以具有相同的音频部分。例如，以第一时长为1s为例，则从近端音频信号中提取的相邻两个近端音频数据块可以分别表示第1s至第2s这一时间段内的音频数据以及第2s至第3s这一段时间内的音频数据，该相邻的两个近端音频数据块彼此连续，可以减少需要提取的音频数据块的数量，降低数据处理量，便于更快速的定位出回声延迟的大概范围。而从近端音频信号中提取的相邻两个近端音频数据块也可以分别表示第1s至第2s这一时间段内的音频数据以及第1.8s至第2.8s这一段时间内的音频数据，该相邻的两个近端音频数据块彼此部分重叠，确保对原始近端音频信号中所提取信息的完整覆盖，降低信号信息遗失的风险。进一步地，基于相似原理，远端音频信号中相邻的两个远端音频数据块也可以具有相同的音频部分。
69.在步骤s3中，根据匹配的近端音频数据块和远端音频数据块的信号相关性确定近端音频信号和远端音频信号的回声延迟。
70.在定位出匹配的近端音频数据块和远端音频数据块后，可采用广义互相关(gcc)算法计算该匹配的近端音频数据块和远端音频数据块的信号相关性函数，并通过检测该相关性函数的最大值来确定回声延迟。其中，采用gcc算法计算两个音频数据块的信号的相关性函数的具体方法可参考现有方案进行理解，本文中不做详述。
71.在获得回声延迟后，可通过自适应算法根据估计出来的回声延迟结果调整滤波器的迭代更新系数以估计出一个期望信号，使得该期望信号逼近经过实际回声路径的回声信号，然后从麦克风采集的混合信号中减去这个模拟回声，达到回声抵消的功能。
72.本发明技术方案在通过广义互相关算法计算精准的延迟结果前，先采用改进的
shazam算法来将回声延迟的大概位置确定在了具有较短的第一时长的音频数据块对应的范围内，使得在回声延迟的估计过程中，仅需对一个音频数据块对应的数据长度进行相干/相关性求解即可获得精准的回声延迟结果，而无需缓存过长的数据，降低了数据处理量，有利于提高回声延迟的估计速度。且准确率高，占用内存少，计算量小，鲁棒性和抗噪能力都很强。
73.进一步地，本发明实施例还公开了一种回声延迟估计装置，用于实现前述的回声延迟估计方法。参考图4，本发明实施例所公开的回声延迟估计装置包括：第一哈希表生成模块110、第二哈希表生成模块120、匹配模块130、相关性模块140和延迟确定模块150。
74.其中，第一哈希表生成模块110被配置为生成近端音频信号中每个近端音频数据块的哈希表。
75.第二哈希表生成模块120被配置为生成远端音频信号中每个远端音频数据块的哈希表。
76.匹配模块130被配置为根据生成的近端音频数据块的哈希表和远端音频数据块的哈希表定位出匹配的近端音频数据块和远端音频数据块。
77.相关性模块140被配置为计算匹配的近端音频数据块和远端音频数据块的信号相关性函数。
78.延迟确定模块150被配置为根据所述相关性函数的最大值确定回声延迟。
79.具体实施时，回声延迟估计装置中的各个模块/单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现。同时，以上描述的回声延迟估计装置中的各个模块/单元的具体实施可参见前述的回声延迟估计方法实施例，在此不再赘述。
80.本发明实施例还提供了一种电子设备200，如图5所示，包括存储器220、处理器210及存储在存储器220上并可在处理器210上运行的程序，该程序被处理器210执行时可实现上述回声延迟估计方法中各实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
81.本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读的存储介质中，并由处理器进行加载和执行。为此，本发明实施例还提供了一种存储介质，该存储介质上存储有计算机程序或指令，该计算机程序或指令被处理器执行时可实现上述回声延迟估计方法中各实施例的各个过程。其中，存储介质，如u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
82.由于该存储介质中所存储的指令，可以执行本发明实施例所提供的回声延迟估计方法中的步骤，因此，可以实现本发明实施例所提供的回声延迟估计方法所能实现的有益效果，详见前面的实施例，在此不再赘述。以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
83.此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本
发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
84.最后应说明的是：显然，上述实施例仅仅是为清楚地说明本发明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。

技术特征：
1.一种回声延迟估计方法，其特征在于，包括：分别从近端音频信号和远端音频信号中提取至少一个具有第一时长的近端音频数据块和远端音频数据块，并生成每个近端音频数据块和每个远端音频数据块的哈希表；根据生成的每个近端音频数据块的哈希表和每个远端音频数据块的哈希表从所述近端音频信号和所述远端音频信号中定位出匹配的近端音频数据块和远端音频数据块；根据匹配的近端音频数据块和远端音频数据块的信号相关性确定所述近端音频信号和所述远端音频信号的回声延迟。2.根据权利要求1所述的回声延迟估计方法，其特征在于，每个近端音频数据块均包括多帧近端音频数据，每个远端音频数据块均包括多帧远端音频数据；生成每个近端音频数据块的哈希表的方法包括：计算近端音频数据块中每帧近端音频数据的哈希值，以根据每帧近端音频数据的哈希值生成对应的近端音频数据块的哈希表；生成每个远端音频数据块的哈希表的方法包括：计算远端音频数据块中每帧远端音频数据的哈希值，以根据每帧远端音频数据的哈希值生成对应的远端音频数据块的哈希表。3.根据权利要求2所述的回声延迟估计方法，其特征在于，计算获得每帧近端音频数据的哈希值的方法包括：将所述近端音频数据块中的每帧近端音频数据转化至频域，以获得所述近端音频数据块中每帧近端音频数据的频谱；根据所述近端音频数据块中每帧近端音频数据对应的频谱获得每帧近端音频数据的幅度的最大值；根据每帧近端音频数据的幅度的最大值、所述最大值在该帧近端音频数据中的位置以及所述最大值对应的频点信息对应生成每帧近端音频数据的哈希值。4.根据权利要求2所述的回声延迟估计方法，其特征在于，计算获得每帧远端音频数据的哈希值的方法包括：将所述远端音频数据块中的每帧远端音频数据转化至频域，以获得所述远端音频数据块中每帧远端音频数据的频谱；根据所述远端音频数据块中每帧远端音频数据对应的频谱获得每帧远端音频数据的幅度的最大值；根据每帧远端音频数据的幅度的最大值、所述最大值在该帧远端音频数据中的位置以及所述最大值对应的频点信息对应生成每帧远端音频数据的哈希值。5.根据权利要求1所述的回声延迟估计方法，其特征在于，将从所述远端音频信号中提取的第一个远端音频数据块作为参考信号，并将该远端音频数据块的哈希表依次与生成的每个近端音频数据块的哈希表进行比较，以确定匹配的近端音频数据块和远端音频数据块，其中，匹配的近端音频数据块和远端音频数据块所各自对应的哈希表完全相同。6.根据权利要求5所述的回声延迟估计方法，其特征在于，若该远端音频数据块的哈希值在依次与n个近端音频数据块的哈希值比较后仍未确定出匹配的近端音频数据块和远端音频数据块，则将从所述远端音频信号中提取的第二个远端音频数据块作为参考信号，并将该远端音频数据块的哈希表依次与生成的每个近端音频数据块的哈希表进行比较，以确定匹配的近端音频数据块和远端音频数据块，其中，n为预设值，且n为大于1的自然数。
7.根据权利要求1所述的回声延迟估计方法，其特征在于，计算匹配的近端音频数据块和远端音频数据块的信号相关性函数；检测所述相关性函数的最大值以确定回声延迟。8.一种回声延迟估计装置，其特征在于，包括：第一哈希表生成模块，被配置为生成近端音频信号中每个近端音频数据块的哈希表；第二哈希表生成模块，被配置为生成远端音频信号中每个远端音频数据块的哈希表；匹配模块，被配置为根据生成的近端音频数据块的哈希表和远端音频数据块的哈希表定位出匹配的近端音频数据块和远端音频数据块；相关性模块，被配置为计算匹配的近端音频数据块和远端音频数据块的信号相关性函数；延迟确定模块，被配置为根据所述相关性函数的最大值确定回声延迟。9.一种存储介质，其特征在于，所述存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。10.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

技术总结
本发明公开了一种回声延迟估计方法、装置、存储介质和电子设备，该方法包括：分别从近端音频信号和远端音频信号中提取至少一个具有第一时长的近端音频数据块和远端音频数据块，并生成每个近端音频数据块和每个远端音频数据块的哈希表；根据生成的每个近端音频数据块的哈希表和每个远端音频数据块的哈希表从近端音频信号和远端音频信号中定位出匹配的近端音频数据块和远端音频数据块；根据匹配的近端音频数据块和远端音频数据块的信号相关性确定近端音频信号和远端音频信号的回声延迟。能够快速的找到回声延迟的位置或范围，且准确率高，占用内存少，计算量小，鲁棒性和抗噪能力强。能力强。能力强。

技术研发人员：秦亚光
受保护的技术使用者：北京奕斯伟计算技术股份有限公司
技术研发日：2022.06.20
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-10514.html

专利

最新回复(0)