本发明涉及视频分析领域,尤其涉及一种基于深度学习平台的视频分析方法及相关设备。
背景技术:
1、随着短视频平台的蓬勃发展,视频营销已成为企业推广的重要手段。现有的视频营销分析方法主要依赖于对视频内容的整体理解,如视频主题识别、情感分析等。然而,这些方法往往忽视了视频中的具体动作序列,无法精确捕捉产品使用过程或服务流程中的关键环节。
2、例如,在产品演示视频中,用户的操作动作序列对于理解产品功能和使用体验至关重要。传统方法可能只能识别出视频的大致主题是"产品演示",但难以区分和分析不同操作步骤的细节。这种粗粒度的分析限制了营销策略的精准性和个性化程度,导致营销资源无法得到高效利用,影响了视频营销的整体效果。
技术实现思路
1、本发明的主要目的在于解决现有的营销领域中视频分析无法精确捕捉产品使用过程或服务流程中的关键环节,导致营销资源无法得到高效利用,影响了视频营销的整体效果的技术问题。
2、本发明第一方面提供了一种基于深度学习平台的视频分析方法,所述基于深度学习平台的视频分析方法包括:
3、对输入深度学习平台的原始视频数据进行预处理和增强处理,得到标准化的视频片段序列和增强后的音频频谱图;
4、根据所述视频片段序列和所述音频频谱图,对所述原始视频数据的视频内容进行多模态深度特征提取处理,得到包含时空动作序列的多模态融合特征向量;
5、基于所述多模态融合特征向量,对所述视频内容进行层次化语义理解和内容分析处理,得到表征视频结构和语义信息的时序语义图谱;
6、根据所述时序语义图谱,对视频内容进行营销策略分析和效果预测处理,得到营销策略评估报告;
7、基于所述策略评估报告和预设的动态用户画像,对视频内容进行个性化匹配和推荐处理,得到针对特定用户群的个性化内容推荐列表。
8、可选的,在本发明第一方面的第一种实现方式中,所述对输入深度学习平台的原始视频数据进行预处理和增强处理,得到标准化的视频片段序列和增强后的音频频谱图包括:
9、对输入深度学习平台的原始视频数据进行多分辨率分解处理,得到包含不同尺度特征的金字塔结构视频数据,并根据所述金字塔结构视频数据,对原始视频数据进行自适应帧率调整处理,得到动态帧率的多层级视频序列;
10、对所述动态帧率的多层级视频序列进行时空一致性优化处理,得到时空连贯的标准化视频片段序列;
11、对所述原始视频数据的音频部分进行盲源分离处理,得到多个独立的音频通道,并对所述多个独立的音频通道进行自适应均衡和混响消除处理,得到清晰度增强的多通道音频;
12、对所述清晰度增强的多通道音频进行多尺度小波变换处理,得到多分辨率音频频谱图,并对所述多分辨率音频频谱图中的频谱特征进行非线性增强和噪声抑制处理,得到增强后的音频频谱图。
13、可选的,在本发明第一方面的第二种实现方式中,所述根据所述视频片段序列和所述音频频谱图,对所述原始视频数据的视频内容进行多模态深度特征提取处理,得到包含时空动作序列的多模态融合特征向量包括:
14、对所述视频片段序列进行三维卷积神经网络处理,得到视频模态的时空特征表示,并对所述音频频谱图进行深度音频特征提取网络处理,得到音频模态的频谱特征表示;
15、根据所述视频片段序列,采用人体姿态估计网络提取人体关键点序列,并对所述人体关键点序列进行时空图卷积网络处理,得到骨骼模态的动作特征表示;
16、对所述视频模态的时空特征表示、音频模态的频谱特征表示和骨骼模态的动作特征表示进行跨模态注意力融合处理,得到初步融合的多模态特征;
17、根据所述初步融合的多模态特征,构建多尺度时序卷积网络,对特征序列进行多粒度时序建模,得到具有长短期依赖关系的时序特征表示;
18、对所述具有长短期依赖关系的时序特征表示进行时空注意力机制处理,得到突出关键时空区域的注意力增强特征;
19、将所述注意力增强特征与初步融合的多模态特征进行残差连接处理,得到包含时空动作序列的多模态融合特征向量。
20、可选的,在本发明第一方面的第三种实现方式中,所述根据所述视频片段序列,采用人体姿态估计网络提取人体关键点序列,并对所述人体关键点序列进行时空图卷积网络处理,得到骨骼模态的动作特征表示包括:
21、对所述视频片段序列进行多尺度人体检测处理,得到包含人体边界框信息的候选区域;
22、根据所述候选区域对视频帧进行裁剪处理,得到人体中心化的图像序列;
23、对所述人体中心化的图像序列进行多阶段姿态估计网络处理,得到初始人体关键点坐标序列;
24、根据所述初始人体关键点坐标序列构建时空骨骼图结构,并对所述时空骨骼图结构进行图卷积网络处理,得到局部关节特征;
25、对所述局部关节特征进行层次化时空聚合处理,得到全局人体姿态表示;
26、将所述全局人体姿态表示与所述局部关节特征进行自适应融合处理,得到多尺度骨骼特征;
27、对所述多尺度骨骼特征进行时序建模处理,得到骨骼模态的动作特征表示。
28、可选的,在本发明第一方面的第四种实现方式中,所述对所述具有长短期依赖关系的时序特征表示进行时空注意力机制处理,得到突出关键时空区域的注意力增强特征包括:
29、对所述时序特征表示进行时序分解处理,得到多个时间尺度的特征子序列,并对每个所述特征子序列进行自注意力计算处理,得到时间维度的注意力权重矩阵;
30、根据所述时间维度的注意力权重矩阵,对特征子序列进行加权聚合处理,得到时间注意力增强的特征表示;
31、对所述时间注意力增强的特征表示进行空间维度解耦处理,得到多个空间通道的特征图;
32、对每个所述空间通道的特征图进行非局部相关性计算处理,得到空间维度的注意力响应图;
33、根据所述空间维度的注意力响应图,对空间通道的特征图进行选择性增强处理,得到空间注意力增强的特征表示;
34、将所述空间注意力增强的特征表示与所述时间注意力增强的特征表示进行自适应融合处理,得到突出关键时空区域的注意力增强特征。
35、可选的,在本发明第一方面的第五种实现方式中,所述基于所述多模态融合特征向量,对所述视频内容进行层次化语义理解和内容分析处理,得到表征视频结构和语义信息的时序语义图谱包括:
36、对所述多模态融合特征向量进行时序分割处理,得到多个子片段特征序列,并对每个所述子片段特征序列进行层次化语义编码处理,得到不同语义层级的特征表示;
37、根据所述不同语义层级的特征表示,构建多层次语义关系图,并对所述多层次语义关系图进行图神经网络处理,得到语义关联增强的节点特征;
38、对所述语义关联增强的节点特征进行时序动态建模处理,得到具有时序上下文的语义表示序列;
39、根据所述语义表示序列,构建层次化时序语义树结构,并对所述层次化时序语义树结构进行树卷积网络处理,得到多尺度时序语义特征;
40、将所述多尺度时序语义特征与初步融合的多模态特征进行跨尺度特征融合处理,得到融合全局和局部信息的综合特征表示;
41、对所述综合特征表示进行语义分割和边界检测处理,得到表征视频结构和语义信息的时序语义图谱。
42、可选的,在本发明第一方面的第六种实现方式中,所述根据所述时序语义图谱,对视频内容进行营销策略分析和效果预测处理,得到营销策略评估报告包括:
43、对所述时序语义图谱进行用户注意力分析处理,得到观众吸引力评分,并根据所述观众吸引力评分,对视频内容进行最佳投放点位识别处理,得到广告插入或产品展示的优化时间点建议;
44、对所述时序语义图谱进行情感趋势分析处理,得到与产品或服务体验相关的情感变化曲线;
45、根据所述情感变化曲线,对视频内容进行品牌印象关联分析处理,得到所述原始视频数据的品牌感知强化建议;
46、将所述优化时间点建议和品牌感知强化建议进行整合处理,得到营销策略评估报告。
47、本发明第二方面提供了一种基于深度学习平台的视频分析装置,所述基于深度学习平台的视频分析装置包括:
48、数据处理模块,用于对输入深度学习平台的原始视频数据进行预处理和增强处理,得到标准化的视频片段序列和增强后的音频频谱图;
49、特征提取模块,用于根据所述视频片段序列和所述音频频谱图,对所述原始视频数据的视频内容进行多模态深度特征提取处理,得到包含时空动作序列的多模态融合特征向量;
50、特征分析模块,用于基于所述多模态融合特征向量,对所述视频内容进行层次化语义理解和内容分析处理,得到表征视频结构和语义信息的时序语义图谱;
51、营销评估模块,用于根据所述时序语义图谱,对视频内容进行营销策略分析和效果预测处理,得到营销策略评估报告;
52、分析推荐模块,用于基于所述策略评估报告和预设的动态用户画像,对视频内容进行个性化匹配和推荐处理,得到针对特定用户群的个性化内容推荐列表。
53、本发明第三方面提供了一种基于深度学习平台的视频分析装置,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于深度学习平台的视频分析设备执行上述的基于深度学习平台的视频分析方法的步骤。
54、本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于深度学习平台的视频分析方法的步骤。
55、上述基于深度学习平台的视频分析方法及相关设备,通过对输入的原始视频数据进行预处理和增强,得到标准化的视频片段序列和增强后的音频频谱图。然后,利用多模态深度特征提取技术,获得包含时空动作序列的融合特征向量。接着,进行层次化语义理解和内容分析,生成时序语义图谱。基于该图谱,进行营销策略分析和效果预测,得到营销策略评估报告。最后,结合动态用户画像,进行个性化内容匹配和推荐。本方法通过精细化的动作分割和多模态分析,实现了对视频内容的深度理解,为制定精准的视频营销策略提供了有力支持,有效提升了视频营销的精准度和效果。
56、本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
57、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种基于深度学习平台的视频分析方法,其特征在于,所述基于深度学习平台的视频分析方法包括:
2.根据权利要求1所述的基于深度学习平台的视频分析方法,其特征在于,所述对输入深度学习平台的原始视频数据进行预处理和增强处理,得到标准化的视频片段序列和增强后的音频频谱图包括:
3.根据权利要求1所述的基于深度学习平台的视频分析方法,其特征在于,所述根据所述视频片段序列和所述音频频谱图,对所述原始视频数据的视频内容进行多模态深度特征提取处理,得到包含时空动作序列的多模态融合特征向量包括:
4.根据权利要求3所述的基于深度学习平台的视频分析方法,其特征在于,所述根据所述视频片段序列,采用人体姿态估计网络提取人体关键点序列,并对所述人体关键点序列进行时空图卷积网络处理,得到骨骼模态的动作特征表示包括:
5.根据权利要求3所述的基于深度学习平台的视频分析方法,其特征在于,所述对所述具有长短期依赖关系的时序特征表示进行时空注意力机制处理,得到突出关键时空区域的注意力增强特征包括:
6.根据权利要求3所述的基于深度学习平台的视频分析方法,其特征在于,所述基于所述多模态融合特征向量,对所述视频内容进行层次化语义理解和内容分析处理,得到表征视频结构和语义信息的时序语义图谱包括:
7.根据权利要求6所述的基于深度学习平台的视频分析方法,其特征在于,所述根据所述时序语义图谱,对视频内容进行营销策略分析和效果预测处理,得到营销策略评估报告包括:
8.一种基于深度学习平台的视频分析装置,其特征在于,所述基于深度学习平台的视频分析装置包括:
9.一种基于深度学习平台的视频分析设备,其特征在于,所述基于深度学习平台的视频分析设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任意一项所述基于深度学习平台的视频分析方法的步骤。
