一种音频段落的标记方法、装置、设备及存储介质与流程

专利2024-08-13 82

1.本公开涉及语音技术领域，尤其涉及一种音频段落的标记方法、装置、设备及存储介质。

背景技术：

2.目前的录音软件或录音笔，大多都有可在录音或者回放的过程中让用户对音频加入标记并进行命名的功能，其目的主要是通过标记方式告诉用户重要信息的起始点和结束点。
3.录音或者回放过程中，用户在听到重要的讲话内容并判断需要标记后，再执行“开始标记”动作时已经落后数秒；录音或者回放过程中，用户判断重要的讲话内容结束并判断并执行“结束标记”动作，录制范围将多出一段无用内容。这是因为用户判断讲话内容的重要性以及实际执行动作造成时间差。并且，不同录音的场合，不同的用户需求导致实际情况会更复杂，用户执行开始标记或结束标记的时间可能提前也可能会延迟。
4.但市面上的录音软件或录音笔的标记功能都是以用户执行标记当下的时间做记录，无法解决前述提到的时间差问题，造成使用者回放的困扰。用户往往需重复回放数次以调整标记位置，以逼近适当的语音段落。

技术实现要素：

5.本公开提供了一种音频段落的标记方法、装置、设备及存储介质，以至少解决现有技术中存在的以上技术问题。
6.根据本公开的第一方面，提供了一种音频段落的标记方法，所述方法包括：响应于音频处理指令，录制或回放音频文件；接收到标记任务的开始指令，响应于所述开始指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的开始时间；以所述开始时间为起点，在所述音频文件中向前查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第一时间；接收到标记任务的结束指令，响应于所述结束指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的结束时间；以所述结束时间为起点，在所述音频文件中向前查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第二时间；在所述音频文件中标记所述第一时间至所述第二时间的音频段落，并从所述音频文件中提取标记的所述音频段落。
7.在一可实施方式中，查找所述语音端点，包括：将所述音频文件进行分帧处理；提取每个音频帧的时域或频域特征；若所述特征符合预设阈值条件，则判定所述音频帧为语音片段，否则为非语音片段，所述语音片段与相邻的非语音片段的交点为语音端点。
8.在一可实施方式中，在接收到标记任务的开始指令，响应于所述开始指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的开始时间之后，还包括：以所述开始时间为起点，在所述音频文件中向后查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第三时间。
9.在一可实施方式中，在接收到标记任务的结束指令，响应于所述结束指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的结束时间之后，还包括：以所述结束时间为起点，在所述音频文件中向后查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第四时间。
10.在一可实施方式中，该方法还包括：在所述音频文件中标记所述第一时间至所述第四时间的音频段落；在所述音频文件中标记所述第三时间至所述第二时间的音频段落；在所述音频文件中标记所述第三时间至所述第四时间的音频段落
11.根据本公开的第二方面，提供了一种音频段落的标记装置，所述装置包括：录音模块，用于响应于音频处理指令，录制或回放音频文件；交互模块用于接收到标记任务的开始指令，响应于所述开始指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的开始时间；查找模块用于以所述开始时间为起点，在所述音频文件中向前查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第一时间；交互模块还用于接收到标记任务的结束指令，响应于所述结束指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的结束时间；查找模块还用于以所述结束时间为起点，在所述音频文件中向前查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第二时间；标记模块用于在所述音频文件中标记所述第一时间至所述第二时间的音频段落，并从所述音频文件中提取标记的所述音频段落。
12.在一可实施方式中，所述查找模块包括：分帧处理模块，用于将所述音频文件进行分帧处理；提取模块，用于提取每个音频帧的时域或频域特征；判断模块，用于若所述特征符合预设阈值条件，则判定所述音频帧为语音片段，否则为非语音片段，所述语音片段与相邻的非语音片段的交点为语音端点。
13.在一可实施方式中，所述查找模块还用于以所述开始时间为起点，在所述音频文件中向后查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第三时间。
14.根据本公开的第三方面，提供了一种电子设备，包括：
15.至少一个处理器；以及
16.与所述至少一个处理器通信连接的存储器；其中，
17.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开的所述音频段落的标记方法。
18.根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开的所述音频段落的标记方法。
19.本公开的一种音频段落的标记方法、装置、设备及存储介质，通过记录标记任务的开始时间，在音频文件中查找开始时间之前最近的语音端点，并记录语音端点的时间为第一时间，第一时间为用户真正想要标记的音频段落的开始时间；再记录标记任务的结束时间，在音频文件中查找结束时间之前最近的语音端点，并记录语音端点的时间为第二时间，第二时间为用户真正想要标记的音频段落的结束时间。在音频文件中获取并标记第一时间至第二时间之间的音频段落，即完成校正音频段落的标记任务。如此，有效地解决了由于用户判断讲话内容的重要性以及实际执行动作产生时间差，而错过标记音频段落最佳时间的问题。
20.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特
征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
21.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
22.在附图中，相同或对应的标号表示相同或对应的部分。
23.图1示出了本公开一实施例的音频段落的标记方法的实现流程示意图；
24.图2示出了本公开一实施例的查找语音端点方法的实现流程示意图；
25.图3示出了本公开一实施例的音频段落的标记装置的示意图；
26.图4示出了本公开一实施例的音频段落的标记装置中查找模块的示意图；
27.图5示出了本公开实施例一种实现音频段落标记方法的电子设备的组成结构示意图。
具体实施方式
28.为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
29.本公开提供一种音频段落的标记方法，如图1所示，具体的实现步骤如下：
30.步骤101：响应于音频处理指令，录制或回放音频文件。
31.本公开对录制或回放音频文件的方式不做限制，可以利用例如录音笔、录音机等音频采集设备，也可以通过移动终端中的录音软件或带有录音功能的软件。
32.步骤102：接收到标记任务的开始指令，响应于开始指令的同时获取当前音频文件的时间，将该时间作为标记任务的开始时间。
33.步骤103：以开始时间为起点，在音频文件中向前查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第一时间。
34.在本示例中，录制或回放的音频文件中，由于讲话人停顿或者在切换讲话人的空白时间会产生大量的非语音片段。本公开通过语音端点检测(voiceactivedetection，简称vad)的方法鉴别音频当中语音出现(speech presence)和语音消失(speech absence)，即从含有静音、噪声等干扰信号的音频文件中准确快速的将语音活动部分的有效语音片段(实际为音频的语音端点)提取出来，为后续音频处理提供可靠数据，减少了后续音频处理的数据量和计算压力。
35.步骤104：接收到标记任务的结束指令，响应于结束指令的同时获取当前音频文件的时间，将该时间作为标记任务的结束时间。
36.步骤105：以结束时间为起点，在音频文件中向前查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第二时间。
37.步骤106：在音频文件中标记第一时间至第二时间的音频段落，并从音频文件中提取标记的音频段落。
38.在本示例中，标记音频段落的方法可以是标记的时间点上插入书签进行标号或者命名，也可以是在音频进度条的标记的时间点上设置滑块，方便用户使用调节。本公开标记音频段落的方法不做限制。
39.本公开提供一种音频段落的标记方法，通过记录标记任务的开始时间，在音频文件中查找开始时间之前最近的语音端点，并记录语音端点的时间为第一时间，第一时间为用户真正想要标记的音频段落的开始时间；再记录标记任务的结束时间，在音频文件中查找结束时间之前最近的语音端点，并记录语音端点的时间为第二时间，第二时间为用户真正想要标记的音频段落的结束时间。在音频文件中获取并标记第一时间至第二时间之间的音频段落，即完成校正音频段落的标记任务。如此，有效地解决了由于用户判断讲话内容的重要性以及实际执行动作产生时间差，而错过标记音频段落最佳时间的问题。
40.在一个示例中，上述步骤103和步骤105中，查找语音端点的过程如图2所示，具体实现方法如下：
41.步骤201：将音频文件进行分帧处理。
42.任何音频的分析和处理必须建立在“短时”的基础上，即进行“短时分析”。将音频文件分为一段一段的来分析其特征参数，其中每一段称为一“帧”。音频文件的分帧是采用可移动的有限长度窗口进行加权的方法来实现的。
43.步骤202：提取每帧音频的时域或频域特征。
44.本公开采用的是基于特征提取的阈值门限判决的语音端点检测方法。从音频中提取时域或频域特征参数，根据语音片段和非语音片段在这些特征参数上的不同分布规律，设定某一阈值来区分语音片段和非语音片段。比较有效的时域特征参数包括：短时能量、短时过零率、自相关函数、基频等。主要的频域特征参数包括：线性预测编码(linear predictive coding，lpc)、倒谱(cepstrum)、频率方差、谱熵等。
45.这些特征随着时间的变化而变化，其中音频的短时能量随时间变化比较明显。短时能量可以看作音频信号的平方经过一个线性滤波器的输出结果，能够区分浊音和清音、判定语音片段和非语音片段、对声母和韵母进行分界等。短时过零率指每帧内音频信号通过零值的次数，实质上是音频信号采样点符号变化的次数。
46.倒谱是音频信号先进行傅里叶变换，经对数运算后再进行傅里叶反变换得到的频域特征，主要功能是可以线性分离经卷积后的两个或多个分别的信号。
47.步骤203：若特征符合预设阈值条件，则判定音频帧为语音片段，否则为非语音片段，语音片段与相邻的非语音片段的交点为语音端点。
48.在本示例中，以短时能量和短时过零率为例，语音片段具有短时能量较大、短时过零率较小的特点，而非语音片段的短时能量较小、短时过零率较大的特点。因此通过预设短时能量和短时过零率的阈值大小，区分语音片段和非语音片段进而得到语音端点。
49.基于特征提取的阈值门限判决的语音端点检测方法通常结合短时能量和短时过零率这两种特征判断语音片段和非语音片段。除此之外，还可以采用倒谱检测判断语音片段和非语音片段。本公开对获取语音端点的方式不做限制。
50.在一个示例中，上述步骤102，在接收到标记任务的开始指令，响应于开始指令的同时获取当前音频文件的时间，将该时间作为标记任务的开始时间之后，还包括：
51.以开始时间为起点，在音频文件中向后查找距离开始时间最近的语音端点，将该
语音端点对应的时间标记为第三时间。
52.在一个示例中，上述步骤104，在接收到标记任务的结束指令，响应于结束指令的同时获取当前音频文件的时间，将该时间作为标记任务的结束时间之后，还包括：
53.以结束时间为起点，在音频文件中向后查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第四时间。
54.在一个示例中，本公开音频段落的标记方法还包括：
55.在本示例中，在音频文件中标记第一时间至第四时间的音频段落。
56.例如，讲话人发表以下一段内容“接下来我们举个例子(停顿)：规律且持续的运动可以帮助新陈代谢(停顿)。最后我再分享一个生活小故事。”在讲到“规律且持续”时接收到标记任务的开始指令，响应于开始指令记录当前音频的开始时间。在开始时间之前的“停顿”(非语音片段)和“规律且持续”(语音片段)之间存在一语音端点，记录该语音端点的时间为第一时间。在讲到“新陈代谢”时接收到标记任务的结束指令，响应于结束指令记录当前音频的结束时间，在结束时间之后的“停顿”和“最后”之间存在一语音端点，记录该语音端点的时间为第四时间。因此，便可以在上述演讲内容中标记第一时间和第四时间之间的音频片段“规律且持续的运动可以帮助新陈代谢”。
57.在本示例中，在音频文件中标记第三时间至第二时间的音频段落。
58.例如，在一场演讲会开始前，主持人在介绍完演讲人后的空白时间，可接收标记任务的开始指令，并响应于开始指令记录开始时间。在空白时间的非语音片段和演讲人讲话的语音片段之间存在一语音端点，将该语音端点的时间记录为第三时间。当演讲人即将结束演讲开始发表结束语，接收到标记任务的结束指令，并响应于结束指令记录结束时间，查找结束时间之前由于演讲人停顿产生的最近的语音端点，将该语音端点的时间记录为第二时间。因此，便可以在音频文件中标记第三时间和第二时间之间的音频段落。
59.在本示例中，在音频文件中标记第三时间至第四时间的音频段落。
60.例如，用户在开会前获取到会议大纲提前知晓会议流程，能够预判想要获取的会议内容。在需要获取的会议内容即将开始时，接收并响应于标记任务的开始指令的同时记录开始时间，并在音频文件中根据开始时间向后查找最近的语音端点，记录该语音端点的时间为第三时间；在需要获取的会议内容即将结束时，接收并响应于标记任务的结束指令的同时记录结束时间，并在音频文件中根据结束时间向后查找最近的语音端点，记录该语音端点的时间为第四时间。因此，便可以在该音频文件中标记第三时间和第四时间之间的音频段落。在本公开中，在音频文件中标记第一时间至第一时间的音频段落可设置为第一校正模式；在音频文件中标记第一时间至第四时间的音频段落可设置为第二校正模式；在音频文件中标记第三时间至第二时间的音频段落可设置为第三校正模式；在音频文件中标记第三时间至第二时间的音频段落可设置为第四校正模式。
61.通常在一次录制或回放音频文件的过程中会执行多次标记任务，而每次执行标记任务时音频实际情况和用户需求都可能不同，因此可以随时调整和修改校正模式以标记最优的音频段落。
62.为了实现上述音频段落的标记方法，本公开还提供一种音频段落的标记装置，如图3所示，该装置包括：
63.录音模块301，用于响应于音频处理指令，录制或回放音频文件；
64.交互模块302，用于接收到标记任务的开始指令，响应于开始指令的同时获取当前音频文件的时间，将该时间作为标记任务的开始时间；
65.查找模块303，用于以开始时间为起点，在音频文件中向前查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第一时间；
66.交互模块302还用于接收到标记任务的结束指令，响应于结束指令的同时获取当前音频文件的时间，将该时间作为标记任务的结束时间；
67.查找模块303还用于以结束时间为起点，在音频文件中向前查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第二时间；
68.标记模块304，用于在音频文件中标记第一时间至第二时间的音频段落，并从音频文件中提取标记的音频段落。
69.在一个示例中，如图4所示，该装置中的查找模块303包括：
70.分帧处理模块305，用于将音频文件进行分帧处理；
71.提取模块306，用于提取每个音频帧的时域或频域特征；
72.判断模块307，用于若特征符合预设阈值条件，则判定音频帧为语音片段，否则为非语音片段，语音片段与相邻的非语音片段的交点为语音端点。
73.在一个示例中，上述查找模块303还用于以开始时间为起点，在音频文件中向后查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第三时间。
74.在一个示例中，上述查找模块303还用于以结束时间为起点，在音频文件中向后查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第四时间。
75.在一个示例中，标记模块304还用于在音频文件中标记第一时间至第四时间的音频段落；在音频文件中标记第三时间至第二时间的音频段落；在音频文件中标记第三时间至第四时间的音频段落。
76.根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。
77.图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
78.如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(rom)502中的计算机程序或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序，来执行各种适当的动作和处理。在ram 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
79.设备500中的多个部件连接至i/o接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
80.计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单
元501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如音频段落的标记方法。例如，在一些实施例中，音频段落的标记方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到ram 503并由计算单元501执行时，可以执行上文描述的音频段落的标记方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音频段落的标记方法。
81.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
82.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
83.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
84.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
85.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
86.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
87.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
88.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
89.以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

技术特征：
1.一种音频段落的标记方法，其特征在于，所述方法包括：响应于音频处理指令，录制或回放音频文件；接收到标记任务的开始指令，响应于所述开始指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的开始时间；以所述开始时间为起点，在所述音频文件中向前查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第一时间；接收到标记任务的结束指令，响应于所述结束指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的结束时间；以所述结束时间为起点，在所述音频文件中向前查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第二时间；在所述音频文件中标记所述第一时间至所述第二时间的音频段落，并从所述音频文件中提取标记的所述音频段落。2.根据权利要求1的方法，其特征在于，查找所述语音端点，包括：将所述音频文件进行分帧处理；提取每个音频帧的时域或频域特征；若所述特征符合预设阈值条件，则判定所述音频帧为语音片段，否则为非语音片段，所述语音片段与相邻的非语音片段的交点为语音端点。3.根据权利要求1或2的方法，其特征在于，在接收到标记任务的开始指令，响应于所述开始指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的开始时间之后，还包括：以所述开始时间为起点，在所述音频文件中向后查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第三时间。4.根据权利要求3的方法，其特征在于，在接收到标记任务的结束指令，响应于所述结束指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的结束时间之后，还包括：以所述结束时间为起点，在所述音频文件中向后查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第四时间。5.根据权利要求4的方法，其特征在于，该方法还包括：在所述音频文件中标记所述第一时间至所述第四时间的音频段落；在所述音频文件中标记所述第三时间至所述第二时间的音频段落；在所述音频文件中标记所述第三时间至所述第四时间的音频段落。6.一种音频段落的标记装置，其特征在于，所述装置包括：录音模块，用于响应于音频处理指令，录制或回放音频文件；交互模块，用于接收到标记任务的开始指令，响应于所述开始指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的开始时间；查找模块，用于以所述开始时间为起点，在所述音频文件中向前查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第一时间；交互模块还用于接收到标记任务的结束指令，响应于所述结束指令的同时获取当前音频文件的时间，将该时间作为所述标记任务的结束时间；
查找模块还用于以所述结束时间为起点，在所述音频文件中向前查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第二时间；标记模块，用于在所述音频文件中标记所述第一时间至所述第二时间的音频段落，并从所述音频文件中提取标记的所述音频段落。7.根据权利要求6所述的装置，其特征在于，所述查找模块包括：分帧处理模块，用于将所述音频文件进行分帧处理；提取模块，用于提取每个音频帧的时域或频域特征；判断模块，用于若所述特征符合预设阈值条件，则判定所述音频帧为语音片段，否则为非语音片段，所述语音片段与相邻的非语音片段的交点为语音端点。8.根据权利要求6或7的装置，其特征在于，所述查找模块还用于以所述开始时间为起点，在所述音频文件中向后查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第三时间。9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。

技术总结
本公开提供一种音频段落的标记方法、装置、设备及存储介质，包括：响应于音频处理指令，录制或回放音频文件；接收到标记任务的开始指令，响应于开始指令的同时获取当前音频文件的时间，将该时间作为标记任务的开始时间；以开始时间为起点，在音频文件中向前查找距离开始时间最近的语音端点，将该语音端点对应的时间标记为第一时间；接收到标记任务的结束指令，响应于结束指令的同时获取当前音频文件的时间，将该时间作为标记任务的结束时间；以结束时间为起点，在音频文件中向前查找距离结束时间最近的语音端点，将该语音端点对应的时间标记为第二时间；在音频文件中标记第一时间至第二时间的音频段落，并从音频文件中提取标记的音频段落。的音频段落。的音频段落。

技术研发人员：施继泽简珮筠王韦翔施昭宇洪千茹
受保护的技术使用者：联宝（合肥）电子科技有限公司
技术研发日：2022.07.07
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-9358.html

专利

最新回复(0)