基于知识增强的视频片段摘要生成方法及系统

专利2025-07-16 52

本发明涉及数据处理，具体涉及一种基于知识增强的视频片段摘要生成方法及系统。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术，并不必然构成现有技术。

2、随着视频内容的爆炸性增长，如何高效地生成视频片段摘要，以快速捕捉视频中的关键信息，成为了一个亟待解决的技术难题。

3、当前，视频摘要生成技术主要依赖于对视频内容的直接分析，但在处理复杂场景、隐含信息及长时间序列关系时效果并不理想；传统基于计算机视觉的方法只能在感知层面理解视频中出现的物体、人物信息，无法理解他们之间的关系；而且，现有的知识增强技术主要侧重于常识知识，通过引入知识图谱中的常识知识来增强视频理解模型的性能，虽然在一定程度上解决了视频理解模型缺乏视觉常识的问题，但往往侧重于单一概念的关联扩展，缺乏对视频整体语境和隐含信息的深入挖掘。

技术实现思路

1、为了解决现有技术的不足，本发明提供了一种基于知识增强的视频片段摘要生成方法及系统，通过融合常识知识、场景知识和时空知识，提升了视频摘要生成的准确性和全面性。

2、为了实现上述目的，本发明采用如下技术方案：

3、第一方面，本发明提供了一种基于知识增强的视频片段摘要生成方法。

4、一种基于知识增强的视频片段摘要生成方法，包括以下过程：

5、抽取视频片段的多个视频帧的信息，得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合；

6、根据物体名称集合，在常识知识图谱中检索名称一致的知识三元组，得到以物体名称为节点，以物体间常识关系为边的第一常识图；

7、针对视觉表征集合提取视觉关系三元组，得到以物体名称为节点，以物体间场景关系为边的第二常识图；

8、针对视觉表征集合提取视觉关系三元组，得到以物体名称为节点，以物体间时空关系为边的第三常识图；

9、将第一常识图、第二常识图和第三常识图整合后采用图注意力网络，得到所有物体的表征，将所有物体的表征与向量表征集合拼接成为视频表征，以所述视频表征与提示词文本作为大语言模型的输入，得到视频片段的摘要文本描述。

10、作为本发明第一方面进一步的限定，抽取视频片段的多个视频帧的信息，得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合，包括：

11、对给定的视频片段，均匀抽取张视频帧；

12、抽取张视频帧的向量表征集合，其中是表征维度，为第 t张视频帧的向量表征；

13、抽取张视频帧中的物体名称集合，代表第 t张视频帧的第 i个物体的物体名称，抽取张视频帧中的视觉表征集合，代表第 t张视频帧的第 i个物体的视觉表征，抽取张视频帧中的文本表征集合，代表第 t张视频帧的第 i个物体的文本表征，其中为第帧中出现物体的数量。

14、作为本发明第一方面更进一步的限定，根据物体名称集合，在常识知识图谱中检索名称一致的知识三元组，得到以物体名称为节点，以物体间常识关系为边的第一常识图，其中，为物体名称集合相关的常识关系集合；

15、针对视觉表征集合提取视觉关系三元组，得到以物体名称为节点，以物体间场景关系为边的第二常识图，其中为物体名称集合相关的场景关系集合；

16、针对视觉表征集合提取视觉关系三元组，得到以物体名称为节点，以物体间时空关系为边的第三常识图，其中为物体名称集合相关的场景关系集合；

17、将第一常识图、第二常识图和第三常识图整合为总常识图，=。

18、作为本发明第一方面更进一步的限定，采用图注意力网络，得到物体表征，包括：

19、；

20、其中，为第 t张视频帧的第 i个物体的物体表征。

21、作为本发明第一方面更进一步的限定，将所有物体表征和视频向量表征拼接成为视频表征，与提示词文本送入大语言模型生成文本描述，，其中，为大语言模型。

22、第二方面，本发明提供了一种基于知识增强的视频片段摘要生成系统。

23、一种基于知识增强的视频片段摘要生成系统，包括：

24、视频信息抽取单元，被配置为：抽取视频片段的多个视频帧的信息，得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合；

25、常识知识抽取单元，被配置为：根据物体名称集合，在常识知识图谱中检索名称一致的知识三元组，得到以物体名称为节点，以物体间常识关系为边的第一常识图；

26、场景知识抽取单元，被配置为：针对视觉表征集合提取视觉关系三元组，得到以物体名称为节点，以物体间场景关系为边的第二常识图；

27、时空知识抽取单元，被配置为：针对视觉表征集合提取视觉关系三元组，得到以物体名称为节点，以物体间时空关系为边的第三常识图；

28、文本描述生成单元，被配置为：将第一常识图、第二常识图和第三常识图整合后采用图注意力网络，得到所有物体的表征，将所有物体的表征与向量表征集合拼接成为视频表征，以所述视频表征与提示词文本作为大语言模型的输入，得到视频片段的摘要文本描述。

29、作为本发明第二方面进一步的限定，视频信息抽取单元中，包括：

30、对给定的视频片段，均匀抽取张视频帧；

31、抽取张视频帧的向量表征集合，其中是表征维度，为第t张视频帧的向量表征；

32、抽取张视频帧中的物体名称集合，代表第 t张视频帧的第 i个物体的物体名称，抽取张视频帧中的视觉表征集合，代表第 t张视频帧的第 i个物体的视觉表征，抽取张视频帧中的文本表征集合，代表第 t张视频帧的第 i个物体的文本表征，其中为第帧中出现物体的数量。

33、第三方面，本发明提供了一种计算机设备，包括：处理器和计算机可读存储介质；

34、处理器，适于执行计算机程序；

35、计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如本发明第一方面所述的基于知识增强的视频片段摘要生成方法。

36、第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如本发明第一方面所述的基于知识增强的视频片段摘要生成方法。

37、第五方面，本发明提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，实现如本发明第一方面所述的基于知识增强的视频片段摘要生成方法。

38、与现有技术相比，本发明的有益效果是：

39、1、本发明通过引入场景知识，优化场景知识建模，精准捕捉视觉对象间的复杂关系，提高了视频场景理解的准确性。

40、2、本发明通过引入时空知识，强化时空知识整合，全面分析视频帧间物体的时空关系，确保视频摘要的时序性和动态性。

41、3、本发明将常识、场景和时空知识进行整合，克服了现有解决方案在视频理解深度和广度上的不足，为视频片段摘要生成提供了一种更为高效、准确的技术方案。

42、本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种基于知识增强的视频片段摘要生成方法，其特征在于，包括以下过程：

2.如权利要求1所述的基于知识增强的视频片段摘要生成方法，其特征在于，

3.如权利要求2所述的基于知识增强的视频片段摘要生成方法，其特征在于，

4.如权利要求3所述的基于知识增强的视频片段摘要生成方法，其特征在于，

5.如权利要求4所述的基于知识增强的视频片段摘要生成方法，其特征在于，

6.一种基于知识增强的视频片段摘要生成系统，其特征在于，包括：

7.如权利要求6所述的基于知识增强的视频片段摘要生成系统，其特征在于，

8.一种计算机设备，其特征在于，包括：处理器和计算机可读存储介质；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1至5任一项所述的基于知识增强的视频片段摘要生成方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至5任一项所述的基于知识增强的视频片段摘要生成方法。

技术总结
本发明属于数据处理技术领域。提供了一种基于知识增强的视频片段摘要生成方法及系统，抽取视频片段的多个视频帧的信息，得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合，进一步的得到以物体间常识关系为边的第一常识图、以物体间场景关系为边的第二常识图、以物体间时空关系为边的第三常识图；将第一常识图、第二常识图和第三常识图整合后采用图注意力网络，得到所有物体的表征，将所有物体的表征与向量表征集合拼接成为视频表征，以所述视频表征与提示词文本作为大语言模型的输入，得到视频片段的摘要文本描述；本发明通过融合常识知识、场景知识和时空知识，提升了视频摘要生成的准确性和全面性。

技术研发人员：关惟俐,聂礼强,刘萌,金恒,胡宇鹏,高赞,张盛平,吴建龙,王霄
受保护的技术使用者：哈尔滨工业大学（深圳）（哈尔滨工业大学深圳科技创新研究院）
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-15916.html

专利

最新回复(0)