一种基于计算机应用场景语义理解的语音识别系统

专利2023-09-27 132

1.本发明涉及计算机语音领域，特别涉及一种基于计算机应用场景语义理解的语音识别系统。

背景技术：

2.在目前的即时通讯软件中，大部分都支持的一种功能是语音的发送，即是将用户的语音录制下来发送到对方，由于该功能在使用的时候满足了用户使用便捷的需求，现如今这个功能已经得到了广泛的应用。但是在应用的时候，往往会产生一定的弊端，例如对于没有办法接收语音的时候，接收到语音实在是让人感到不知所措，再如接收到一段时间较长的语音的时候，往往会由于需要大量的时间去提取出语义的重点而使人厌烦，因此，目前在语音接收的时候，所产生的弊端都是一些丞待解决的问题。
3.对于上述问题，现有解决的方式是：使用语音文字转化技术，将语音转化为文字，显示给用户，但是这样的功能需要用户自己手动的触发，同时在语音转化文字的时候，不会从中提炼重点显示，而是将全部的信息显示出来，这样长篇大段的让人观看，显然非常的浪费时间，没有良好的用户体验。

技术实现要素：

4.本发明的目的是克服上述现有技术中存在的问题，提供一种基于计算机应用场景语义理解的语音识别系统，将转化好的文字进行提炼，得到文字中的重点信息，并将提炼出的重点进行显示，从而节约用户获取信息的时间，提升用户的体验。
5.为此，本发明提供一种基于计算机应用场景语义理解的语音识别系统，包括：
6.语音分解模块，用于接收用户的语音，并将用户的语音分解为若干个时间相等的子语音，每一个子语音上标记时间戳，所述时间戳为对应的子语音在所述语音中的起始时间；
7.语音过滤模块，分别解析每一个所述子语音，将声音为空白的所述子语音删除，并根据每一个所述子语音上的时间戳的先后顺序将剩余的所述子语音排序，将排序好的所述子语音进行拼接得到新语音；
8.语音转化模块，将所述新语音使用语音文字转化技术转化为文字段，并将所述文字段存储在缓存区中；
9.文字提取模块，将缓存区中的所述文字段使用文意提取技术提取出其中的重要字段；
10.文字显示模块，将所述重要字段显示在用户界面上。
11.进一步，所述文意提取技术，包括如下步骤：
12.将所述文字段分解为多个语句，每一个语句根据其在所述文字段中的位置进行编号并标记；
13.依次提取出每一个所述语句的关键词，并将每一个语句的关键词进行排列，组成
关键词序列；
14.当所述关键词序列中的首个关键词和末个关键词相同的时候，将末个关键词所对应的语句输出；
15.当所述关键词序列中出现至少三个相同的关键词，获取出现频率最高的关键词，并将获取的关键词分别与首个关键词和末个关键词进行对比，当获取的关键词与首个关键词或者末个关键词相同的时候，输出首个关键词或者末个关键词对应的语句，否则输出全部的语句。
16.更进一步，当获取的关键词与首个关键词或者末个关键词相同的时候，输出对应的语句的时候，包括如下步骤：
17.分别将获取的关键词与首个关键词和末个关键词对比的结果，所述结果在相同的时候为真，不同的时候为假；
18.当首个关键词和末个关键词对比的结果均为真的时候，输出末个关键词所对应的语句；
19.当首个关键词和末个关键词对比的结果不相同的时候，对比结果为真的关键词所对应的语句。
20.更进一步，所述文字显示模块在用户界面上显示的时候，显示输出的语句在所述语音的下方，同时设置全文按钮，在用户点击所述全文按钮的时候，显示所述文字段。
21.进一步，所述语音转化模块，将所述文字段存储在缓存区之前，去除所述文字段中重复的语句。
22.更进一步，在去除文字段中重复的语句的时候，包括如下步骤：
23.将所述文字段分解为多个语句，每一个语句根据其在所述文字段中的位置进行编号并标记；
24.分别对比两个所述语句的相似度，得到两个语句的相似值，当所述相似值大于设定数值的时候，删除其中的一个语句，遍历所有的所述语句；
25.根据剩余的每一个所述语句的编号依次排列，得到简明文段，输出所述简明文段。
26.进一步，还包括：
27.语气判断模块，用于检测所述语音的语速和音调，并根据语速和音调加权得到语音的语气，并判断语音的语气程度；
28.显示预判模块，用于根据所述语音的语气程度，控制所述文字显示模块使用对应的颜色显示所述重要字段。
29.本发明提供的一种基于计算机应用场景语义理解的语音识别系统，具有如下有益效果：
30.本发明将语音转化文字后所显示的信息通过文字处理技术进行提炼，过滤掉不重要的信息内容，剩余显示的信息为转化后文字的重点信息，从而使得用户在读取信息的时候，节省不必要浪费的时间，快速的提取信息的重点内容，同时可以快速的进行信息的回顾，进而提升用户的体验；
31.本发明在对信息的重点内容进行提取的时候，首选根据各个文字的时间间隔，去掉语音信息中的语气词，之后在通过语义技术，得到语音信息中具有实际意义的语音，最
后将这些语音转化为文字进行保留；
32.本发明还通过检测语音中的语气，得到该语音的重要程度，并且将重要程度高的内容，使用颜色区分的方式突出显示。
附图说明
33.图1为本发明的系统示意框图；
34.图2为本发明的文意提取技术的流程示意框图；
35.图3为本发明在关键词相同的时候输出对应语句的流程示意框图；
36.图4为本发明去除文字段中重复语句的流程示意框图。
具体实施方式
37.下面结合附图，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。
38.在本技术文件中，未经明确的部件型号以及结构，均为本领域技术人员所公知的现有技术，本领域技术人员均可根据实际情况的需要进行设定，在本申请文件的实施例中不做具体的限定。
39.具体的，如图1-4所示，本发明实施例提供了一种基于计算机应用场景语义理解的语音识别系统，包括：语音分解模块、语音过滤模块、语音转化模块、文字提取模块以及文字显示模块。下面是对各个模块的详细工作介绍。
40.语音分解模块，用于接收用户的语音，并将用户的语音分解为若干个时间相等的子语音，每一个子语音上标记时间戳，所述时间戳为对应的子语音在所述语音中的起始时间；本发明的用户语音指的是接收到的用于的语音，将其分解为若干个时间相等的子语音，每一个语音上具有时间戳，首先获取用户的语音的播放时长，例如40秒长的语音，按照1秒的间隔，将用户语音分割为40 个子语音，每一个子语音具有对应的时间戳，第一个子语音的时间戳是0秒，第二个子语音的时间戳是1秒等等。
41.语音过滤模块，分别解析每一个所述子语音，将声音为空白的所述子语音删除，并根据每一个所述子语音上的时间戳的先后顺序将剩余的所述子语音排序，将排序好的所述子语音进行拼接得到新语音；本发明中的空白语音，即是子语音播放之后，只有杂音，没有任何有用声音的语音，这样将没有声音的子语音过滤之后，所得到的子语音按照时间戳的先后顺序排列，就得到新新语音，这个新语音就是后续的研究对象，并且已经为用户节约一些不必要浪费的时间。
42.语音转化模块，将所述新语音使用语音文字转化技术转化为文字段，并将所述文字段存储在缓存区中；该模块使用目前成熟的语音文字转化技术实现。
43.文字提取模块，将缓存区中的所述文字段使用文意提取技术提取出其中的重要字段；该模块是对于上述的文字段中的信息进行进一步的提炼，从而得到其中的重点信息，即是所述的重要字段。
44.文字显示模块，将所述重要字段显示在用户界面上。用于用户的观看。
45.上述技术方案中，语音分解模块、语音过滤模块、语音转化模块、文字提取模块以及文字显示模块相互之间互相作用，从而将用户接受的语音进行初步的过滤之后，提炼出
文字段，在将提炼的文字段进行二次的重点提炼，使得用户在使用的时候，不但可以不听语音，快速准确的获得其中的重点内容，轻轻松松的使得用户节约了获取信息的时间，同时帮助用户提升了获取信息的准确程度。
46.在本发明中，所述文意提取技术，包括如下步骤：
47.(一)将所述文字段分解为多个语句，每一个语句根据其在所述文字段中的位置进行编号并标记；
48.(二)依次提取出每一个所述语句的关键词，并将每一个语句的关键词进行排列，组成关键词序列；
49.(三)当所述关键词序列中的首个关键词和末个关键词相同的时候，将末个关键词所对应的语句输出；
50.(四)当所述关键词序列中出现至少三个相同的关键词，获取出现频率最高的关键词，并将获取的关键词分别与首个关键词和末个关键词进行对比，当获取的关键词与首个关键词或者末个关键词相同的时候，输出首个关键词或者末个关键词对应的语句，否则输出全部的语句。
51.上述技术方案中，步骤(一)至(四)按照逻辑顺序依次进行，本发明通过关键词的方式，获取文字段的语言结构，是总分总、总分、分总或者分总分形式的，通过找准文字段的行文脉络，得到文字段的重点信息。对于文字段的各个语句的意思，通过关键词的方式对其进行确定。在步骤(四)中最后输出的，即是文字段的中心语句，也是可以表达整个文字段意思的语句，用户直接阅读该语句，就会使得对文字段的整体进行把握。
52.同时，在本发明中，当获取的关键词与首个关键词或者末个关键词相同的时候，输出对应的语句的时候，包括如下步骤：
53.(1)分别将获取的关键词与首个关键词和末个关键词对比的结果，所述结果在相同的时候为真，不同的时候为假；
54.(2)当首个关键词和末个关键词对比的结果均为真的时候，输出末个关键词所对应的语句；
55.(3)当首个关键词和末个关键词对比的结果不相同的时候，对比结果为真的关键词所对应的语句。
56.上述技术方案中，步骤(1)至(3)按照逻辑顺序依次进行，该步骤(1) 至(3)适合总分、分总或者分总分结构的行文脉络，步骤(1)中，对总分、分总或者分总分结构的行文脉络进行确定，步骤(2)表示是分总结构的行文脉络，输出的是表示总的那部分语句，步骤(3)表示总分或者分总分结构的行文脉络，输出的也是表示总的那部分语句。
57.本发明在对文字段的重点进行提取的时候，与行文脉络相结合，所提取出的文字段的核心意思更加的清楚、明确。
58.同时，在本发明中，所述文字显示模块在用户界面上显示的时候，显示输出的语句在所述语音的下方，同时设置全文按钮，在用户点击所述全文按钮的时候，显示所述文字段。
59.在本发明中，所述语音转化模块，将所述文字段存储在缓存区之前，去除所述文字段中重复的语句。这样就可以在提炼重点的时候，减少一部分对于充分语句的处理，提升系统的运算速度。
60.同时，在本发明中，在去除文字段中重复的语句的时候，包括如下步骤：
61.《1》将所述文字段分解为多个语句，每一个语句根据其在所述文字段中的位置进行编号并标记；
62.《2》分别对比两个所述语句的相似度，得到两个语句的相似值，当所述相似值大于设定数值的时候，删除其中的一个语句，遍历所有的所述语句；
63.《3》根据剩余的每一个所述语句的编号依次排列，得到简明文段，输出所述简明文段。
64.上述技术方案中，步骤《1》至《3》按照逻辑顺序依次进行，本发明通过对文字段的各个语句进行对比，得到的语句之间的重复，删除重复的语句，所得到的语句就简洁明了，即是本发明所述的简明文段。
65.在本发明中，还包括：语气判断模块和显示预判模块。其中，语气判断模块用于检测所述语音的语速和音调，并根据语速和音调加权得到语音的语气，并判断语音的语气程度；显示预判模块用于根据所述语音的语气程度，控制所述文字显示模块使用对应的颜色显示所述重要字段。
66.本发明还通过检测语音中的语气，得到该语音的重要程度，并且将重要程度高的内容，使用颜色区分的方式突出显示。本发明对于语气程度，使用百分比的方式进行表示，百分比的数值越大，表示语气程度越重。
67.以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

技术特征：
1.一种基于计算机应用场景语义理解的语音识别系统，其特征在于，包括：语音分解模块，用于接收用户的语音，并将用户的语音分解为若干个时间相等的子语音，每一个子语音上标记时间戳，所述时间戳为对应的子语音在所述语音中的起始时间；语音过滤模块，分别解析每一个所述子语音，将声音为空白的所述子语音删除，并根据每一个所述子语音上的时间戳的先后顺序将剩余的所述子语音排序，将排序好的所述子语音进行拼接得到新语音；语音转化模块，将所述新语音使用语音文字转化技术转化为文字段，并将所述文字段存储在缓存区中；文字提取模块，将缓存区中的所述文字段使用文意提取技术提取出其中的重要字段；文字显示模块，将所述重要字段显示在用户界面上。2.如权利要求1所述的一种基于计算机应用场景语义理解的语音识别系统，其特征在于，所述文意提取技术，包括如下步骤：将所述文字段分解为多个语句，每一个语句根据其在所述文字段中的位置进行编号并标记；依次提取出每一个所述语句的关键词，并将每一个语句的关键词进行排列，组成关键词序列；当所述关键词序列中的首个关键词和末个关键词相同的时候，将末个关键词所对应的语句输出；当所述关键词序列中出现至少三个相同的关键词，获取出现频率最高的关键词，并将获取的关键词分别与首个关键词和末个关键词进行对比，当获取的关键词与首个关键词或者末个关键词相同的时候，输出首个关键词或者末个关键词对应的语句，否则输出全部的语句。3.如权利要求2所述的一种基于计算机应用场景语义理解的语音识别系统，其特征在于，当获取的关键词与首个关键词或者末个关键词相同的时候，输出对应的语句的时候，包括如下步骤：分别将获取的关键词与首个关键词和末个关键词对比的结果，所述结果在相同的时候为真，不同的时候为假；当首个关键词和末个关键词对比的结果均为真的时候，输出末个关键词所对应的语句；当首个关键词和末个关键词对比的结果不相同的时候，对比结果为真的关键词所对应的语句。4.如权利要求3所述的一种基于计算机应用场景语义理解的语音识别系统，其特征在于，所述文字显示模块在用户界面上显示的时候，显示输出的语句在所述语音的下方，同时设置全文按钮，在用户点击所述全文按钮的时候，显示所述文字段。5.如权利要求1所述的一种基于计算机应用场景语义理解的语音识别系统，其特征在于，所述语音转化模块，将所述文字段存储在缓存区之前，去除所述文字段中重复的语句。6.如权利要求5所述的一种基于计算机应用场景语义理解的语音识别系统，其特征在于，在去除文字段中重复的语句的时候，包括如下步骤：将所述文字段分解为多个语句，每一个语句根据其在所述文字段中的位置进行编号并
标记；分别对比两个所述语句的相似度，得到两个语句的相似值，当所述相似值大于设定数值的时候，删除其中的一个语句，遍历所有的所述语句；根据剩余的每一个所述语句的编号依次排列，得到简明文段，输出所述简明文段。7.如权利要求1所述的一种基于计算机应用场景语义理解的语音识别系统，其特征在于，还包括：语气判断模块，用于检测所述语音的语速和音调，并根据语速和音调加权得到语音的语气，并判断语音的语气程度；显示预判模块，用于根据所述语音的语气程度，控制所述文字显示模块使用对应的颜色显示所述重要字段。

技术总结
本发明公开了一种基于计算机应用场景语义理解的语音识别系统，包括语音分解模块，用于接收用户的语音，并将用户的语音分解为若干个时间相等的子语音；语音过滤模块分别解析每一个所述子语音，将声音为空白的所述子语音删除，将剩余的所述子语音进行拼接得到新语音；语音转化模块将所述新语音使用语音文字转化技术转化为文字段，并将所述文字段存储在缓存区中；文字提取模块将缓存区中的所述文字段使用文意提取技术提取出其中的重要字段；文字显示模块将所述重要字段显示在用户界面上。本发明将转化好的文字进行提炼，得到文字中的重点信息，并将提炼出的重点进行显示，从而节约用户获取信息的时间，提升用户的体验。提升用户的体验。提升用户的体验。

技术研发人员：王向前王昭予赵珊珊胡海峰司森森王剑
受保护的技术使用者：平顶山学院
技术研发日：2022.07.13
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-5338.html

专利

最新回复(0)