本发明涉及网络安全,尤其是一种网络安全语义知识库构建方法与系统。
背景技术:
1、语义是自然语言处理中用于理解和推理语义关系的知识,辅助计算机进行知识之间的联系与推理,以便更准确地理解文字的真实含义。语义知识库是提供相关语义知识表示与解析且描述语义关系的结构化知识库,网络安全语义知识库的准确性和丰富性直接影响对网络安全事件识别的效果。
2、构建网络安全语义知识库是网络安全认知智能化建设和发展中不可或缺但又十分艰巨的任务。现有通用方法主要是从文本的单个句子中抽取实体间关系,但由于网络安全数据具有的特殊性,增加了网络安全语义知识库构建的难度。首先,网络安全数据来源于不同网系、不同业务和不同主体,造成数据结构和格式各不相同,存在数据的一致性问题,需要对不同数据源的数据进行合并、清洗和标准化,以便进行有效的语义解析;其次,网络安全数据包括各种特定概念、技术术语和上下文信息,大量的实体往往在上下文多个句子中,甚至在多个文件中,如何在更复杂的语境下进行实体知识抽取是面临的主要问题;最后,网络安全数据不能保证可以完整地记录所有事件与情况,可能导致数据缺失或不完整的情况出现,因此,语义解析算法需要使用适当的方法从碎片化、局部化的数据中推断出可能的完整信息,更好支撑网络安全防御行动、要素的体系运用和协同联动。
3、公开号为cn112199957a的中国专利文献介绍了一种基于属性和关系信息联合嵌入的人物实体对齐方法及系统,其通过收集网络中人物实体数据,提取实体属性信息和关系信息,分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度,以判定两个人物实体是否为同一实体。该方法仅涉及人物实体模型构建与人物实体间相似度的比较,不涉及网络安全应用。
4、公开号为cn114764506a的中国专利文献介绍了一种网络安全知识库构建方法,其通过获取历史安全文档库,并对历史安全文档库中的历史安全文档进行词语提取,获得待处理词语集,对待处理词语集中的各待处理词语进行关联性分析,获得关联性分析结果,根据分析结果对待处理词语集进行分组,获得词义关联组以及语法关联组,根据词义关联组以及语法关联组生成待处理词语集的有向无环图,并根据有向无环图建立网络安全知识库。该方法基于历史安全文档库进行文档解析,要求数据格式统一,无法完成对不同网系、不同业务、不同主体等造成的数据结构和格式不相同的文本的解析;另外,其根据同义词、略缩词、语法进行语义和语法的分组,仅能够实现关键词的归类,知识库的丰富性欠佳。
技术实现思路
1、本发明的发明目的在于:针对上述存在的问题,提供一种网络安全语义知识库构建方法与系统,旨在将多种不同模态、类型、格式的网络安全数据解析成计算机可理解的统一的语义形式,同时提升语义知识库的丰富程度。
2、本发明采用的技术方案如下:
3、一种网络安全语义知识库构建方法,其包括准备阶段、语义抽取阶段、语义映射阶段和语义知识库构建阶段,其中:
4、所述准备阶段包括:设定实体知识模型、事件知识模型和语义关系模型格式;接收当前时期的网络安全文本数据;
5、所述语义抽取阶段包括:根据所设定的实体知识模型、事件知识模型和语义关系模型格式,从网络安全文本数据中分别进行实体知识抽取、事件知识抽取和语义关系抽取;
6、所述语义映射阶段包括:将所述语义抽取阶段得到的实体知识、事件知识和语义关系分别映射为rdf文档;
7、所述语义知识库构建阶段包括:将不同时期得到的rdf文档持续化到语义知识库。
8、进一步的,所述语义抽取阶段,采用基于注意力机制的双向长短时记忆网络进行实体知识抽取。
9、进一步的,所述语义抽取阶段,采用分层策略网络进行事件知识抽取。
10、进一步的,所述分层策略网络包括输入层、事件级策略网络层、参数级策略网络层和输出层;
11、通过输入层对所述网络安全文本数据进行预处理;
12、将预处理的文本在事件级策略网络层进行网络安全事件的事件触发词识别,并在识别到事件触发词后,基于概率的随机策略从预定义的选项集中确定出该事件触发词相关的事件类型和事件参数,所述选项集包括各种事件类型和相关的事件参数;
13、若从选项集中识别出事件类型,则利用参数级策略网络层为该事件相关的事件参数分配相应的标签;
14、在输出层根据所述事件知识模型的格式汇总所识别出的事件类型、相关事件参数以及各事件参数的标签。
15、进一步的,所述语义抽取阶段,采用基于模式规则匹配网络进行语义关系抽取。
16、进一步的,所述基于模式规则匹配网络包括输入层、因果关系片段抽取层、因果事件对抽取层和输出层;
17、通过输入层对所述网络安全文本数据进行预处理,并定义语义关系匹配模式;
18、在因果关系片段抽取层将预处理的文本与所述语义关系匹配模式相匹配,从中提取出至少一组相关联的原因片段和结果片段;
19、根据在因果事件对抽取层中设定的提取规则,从所有相关联的原因片段和结果片段中抽取出因果关系对;
20、在输出层对输入层、因果关系片段抽取层和因果事件对抽取层输出的数据进行聚合和校验,并将聚合的数据转换为所述语义关系模型的格式。
21、进一步的,所述因果事件对抽取层中设定的提取规则包括:
22、事件触发词规则约束:对由语义关系匹配模式匹配得到的每一组原因片段和结果片段进行遍历,若没有事件触发词,则过滤掉当前组原因片段和结果片段;
23、关系提示词规则约束:对同一个句子由语义关系匹配模式匹配得到的多组原因片段和结果片段,选择两个关系提示词的距离最近的那组作为该句子的原因片段和结果片段;
24、选择原因片段中与关系提示词距离最近的事件触发词,将该事件触发词所指示的网络安全事件作为原因事件;选择结果片段中与关系提示词距离最近的事件触发词,将该事件触发词所指示的网络安全事件作为结果事件。
25、进一步的,所述语义关系匹配模式包括5种:由果溯因配套式、由因到果配套式、由因到果居中式、由因到果前端式,以及由果溯因居中式。
26、进一步的,所述基于模式规则匹配网络的输出层对数据的校验包括一致性和完整性的校验。
27、本发明还提供了一种网络安全语义知识库构建系统,该系统被配置为执行上述的网络安全语义知识库构建方法。
28、本发明还提供了一种可读存储介质,该存储介质存储有采用上述的网络安全语义知识库构建方法所构建的网络安全语义知识库。
29、综上所述,由于采用了上述技术方案,本发明的有益效果是:
30、本发明提出了一种涵盖实体知识、事件知识、语义关系的融合语义抽取框架。此框架融合实体知识、事件知识和语义关系抽取方法,提升了语义知识综合理解和处理能力。通过将这三种语义抽取技术整合到一个框架中,可以更全面地捕捉和理解网络安全文本数据内容,实现更深层次的语义分析。融合框架通过统一的策略和层次处理,使得各类语义知识的抽取在上下文中更加协同一致,增强了模型对复杂文本结构的适应性和鲁棒性。基于注意力机制实现对实体、概念的抽取,注意力机制在自然语言处理任务中应用广泛,并且在知识抽取所需要的实体标注任务中表现出色。注意力机制能够帮助模型自动学习识别文本中的重要实体片段,从而提高实体知识抽取的精确性;在事件知识抽取中主要采用分层策略网络的方法,事件知识抽取是从文本中提取事件类型、触发词等信息,而分层策略网络可以为不同的抽取子任务设定不同的层次和策略,有助于处理多层次和多步骤的事件抽取任务,它可以使模型更好地建模复杂语义结构和长距离依赖(一个词的语义受到远距离其他词的影响),提高事件知识抽取的准确性和鲁棒性;在语义关系抽取中主要是基于模式规则匹配方法,通过精确匹配特定的语言模式,直接定位并提取关键的实体关系,特别是在处理大量结构化文本时具有高效性和准确性的优势。此外,调整匹配规则可快速适应新的语义关系,使得该方法在复杂语义关系的定义中保持灵活性。
1.一种网络安全语义知识库构建方法,其特征在于,包括准备阶段、语义抽取阶段、语义映射阶段和语义知识库构建阶段,其中:
2.如权利要求1所述的网络安全语义知识库构建方法,其特征在于,所述语义抽取阶段,采用基于注意力机制的双向长短时记忆网络进行实体知识抽取。
3.如权利要求1所述的网络安全语义知识库构建方法,其特征在于,所述语义抽取阶段,采用分层策略网络进行事件知识抽取。
4.如权利要求3所述的网络安全语义知识库构建方法,其特征在于,所述分层策略网络包括输入层、事件级策略网络层、参数级策略网络层和输出层;
5.如权利要求1所述的网络安全语义知识库构建方法,其特征在于,所述语义抽取阶段,采用基于模式规则匹配网络进行语义关系抽取。
6.如权利要求5所述的网络安全语义知识库构建方法,其特征在于,所述基于模式规则匹配网络包括输入层、因果关系片段抽取层、因果事件对抽取层和输出层;
7.如权利要求6所述的网络安全语义知识库构建方法,其特征在于,所述因果事件对抽取层中设定的提取规则包括:
8.如权利要求6所述的网络安全语义知识库构建方法,其特征在于,所述语义关系匹配模式包括5种:由果溯因配套式、由因到果配套式、由因到果居中式、由因到果前端式,以及由果溯因居中式。
9.如权利要求6所述的网络安全语义知识库构建方法,其特征在于,所述基于模式规则匹配网络的输出层对数据的校验包括一致性和完整性的校验。
10.一种网络安全语义知识库构建系统,其特征在于,该系统被配置为执行权利要求1~9任一所述的网络安全语义知识库构建方法。
