本发明涉及多媒体,尤其涉及一种视频编辑方法、装置、设备及存储介质。
背景技术:
1、随着电子设备越来越智能化,电子设备拍摄视频和图片的功能方便人们随时记录风景和人物,可以满足用户的日常需求。其中,为了优化拍摄的画面,通常可以采用视频编辑的方式对视频特定内容的调整(例如,视频内容的颜色、物体空间位置和外貌等),以满足用户的视觉需求。
2、目前,通常是通过视频编辑算法来实现视频编辑,然而,这些视频编辑算法的显存需求会随着待编辑帧的数量增加而迅速增大,此时有限的硬件设备会限制其可编辑的视频长度,导致无法编辑长视频。
3、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供了一种视频编辑方法、装置、设备及存储介质,旨在解决现有技术中有限的硬件设备会限制视频编辑算法可编辑的视频长度,导致其无法编辑长视频的技术问题。
2、为实现上述目的,本发明提供了一种视频编辑方法,所述视频编辑方法包括:
3、通过神经视频场将待编辑视频编码为所述神经视频场中的神经网络参数;
4、确定所述待编辑视频中目标帧序号对应的目标视频帧图像;
5、通过预设文本图像模型基于用户文本指令和所述目标视频帧图像对所述神经网络参数进行优化,获得优化后的神经视频场;
6、基于所述优化后的神经视频场获取编辑后的视频。
7、可选地,所述通过神经视频场将待编辑视频编码为所述神经视频场中的神经网络参数的步骤,包括:
8、通过神经视频场基于输入空间坐标对待编辑视频进行编码,获得所述待编辑视频对应的渲染视频中的第一像素值;
9、确定所述待编辑视频中所述输入空间坐标对应的目标像素值;
10、基于所述第一像素值和所述目标像素值对所述待编辑视频和所述渲染视频进行拟合,以将所述待编辑视频编码为所述神经视频场中的神经网络参数。
11、可选地,所述神经视频场包括:显式部分和隐式部分,所述隐式部分由多层感知机构成;所述通过神经视频场基于输入空间坐标对待编辑视频进行编码,获得所述待编辑视频对应的渲染视频中的第一像素值的步骤,包括:
12、通过所述显式部分基于输入空间坐标对待编辑视频进行编码,获得视频编码特征;
13、通过所述隐式部分对所述视频编码特征进行解码,生成所述待编辑视频对应的渲染视频中的第一像素值。
14、可选地,所述显式部分由三平面组成;所述通过所述显式部分基于输入空间坐标对待编辑视频进行编码,获得视频编码特征的步骤,包括:
15、通过所述显式部分基于输入空间坐标对待编辑视频进行编码,获得所述待编辑视频对应的第一平面特征、第二平面特征和第三平面特征;
16、对所述第一平面特征、所述第二平面特征和所述第三平面特征进行合并,获得视频编码特征。
17、可选地,所述通过预设文本图像模型基于用户文本指令和所述目标视频帧图像对所述神经网络参数进行优化,获得优化后的神经视频场的步骤,包括:
18、通过所述神经视频场对所述目标视频帧图像进行渲染,获得渲染视频帧图像;
19、通过预设文本图像模型基于用户文本指令对所述渲染视频帧进行编辑,获得编辑帧图像;
20、基于所述渲染视频帧图像和所述编辑帧图像对所述神经网络参数进行优化,获得优化后的神经视频场。
21、可选地,所述通过所述神经视频场对所述目标视频帧图像进行渲染,获得渲染视频帧图像的步骤,包括:
22、确定所述目标视频帧图像中所有像素点对应的坐标信息;
23、基于所述目标帧序号和所述坐标信息确定坐标集合;
24、通过所述神经视频场基于所述坐标集合对所述目标视频帧图像进行渲染,获得渲染视频帧图像。
25、可选地,所述基于所述渲染视频帧图像和所述编辑帧图像对所述神经网络参数进行优化,获得优化后的神经视频场的步骤,包括:
26、以所述编辑帧图像作为伪标签,通过目标函数对所述渲染视频帧图像和所述编辑帧图像进行训练,以对所述神经网络参数进行优化,获得优化后的神经视频场;
27、其中,所述目标函数为:
28、
29、式中,为所述目标函数,为所述神经网络参数,ft为所述渲染视频帧图像,为所述编辑帧图像。
30、此外,为实现上述目的,本发明还提出一种视频编辑装置,所述装置包括:
31、视频编码模块,用于通过神经视频场将待编辑视频编码为所述神经视频场中的神经网络参数;
32、图像确定模块,用于确定所述待编辑视频中目标帧序号对应的目标视频帧图像;
33、参数优化模块,用于通过预设文本图像模型基于用户文本指令和所述目标视频帧图像对所述神经网络参数进行优化,获得优化后的神经视频场;
34、视频获取模块,用于基于所述优化后的神经视频场获取编辑后的视频。
35、此外,为实现上述目的,本发明还提出一种视频编辑设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频编辑程序,所述视频编辑程序配置为实现如上文所述的视频编辑方法的步骤。
36、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有视频编辑程序,所述视频编辑程序被处理器执行时实现如上文所述的视频编辑方法的步骤。
37、在本发明中,公开了通过神经视频场将待编辑视频编码为神经视频场中的神经网络参数;确定待编辑视频中目标帧序号对应的目标视频帧图像;通过预设文本图像模型基于用户文本指令和目标视频帧图像对神经网络参数进行优化,获得优化后的神经视频场;基于优化后的神经视频场获取编辑后的视频;相较于现有技术中视频编辑算法的显存需求会随着待编辑帧的数量增加而迅速增大,但有限的硬件设备会限制其可编辑的视频长度,由于本发明通过神经视频场将待编辑视频编码为所述神经视频场中的神经网络参数,并基于用户文本指令和待编辑视频中的目标视频帧图像对神经网络参数进行优化,以基于优化后的神经视频场获取编辑后的视频,从而解决了现有技术中有限的硬件设备会限制视频编辑算法可编辑的视频长度,导致其无法编辑长视频的技术问题。
1.一种视频编辑方法,其特征在于,所述视频编辑方法包括:
2.如权利要求1所述的视频编辑方法,其特征在于,所述通过神经视频场将待编辑视频编码为所述神经视频场中的神经网络参数的步骤,包括:
3.如权利要求2所述的视频编辑方法,其特征在于,所述神经视频场包括:显式部分和隐式部分,所述隐式部分由多层感知机构成;所述通过神经视频场基于输入空间坐标对待编辑视频进行编码,获得所述待编辑视频对应的渲染视频中的第一像素值的步骤,包括:
4.如权利要求3所述的视频编辑方法,其特征在于,所述显式部分由三平面组成;所述通过所述显式部分基于输入空间坐标对待编辑视频进行编码,获得视频编码特征的步骤,包括:
5.如权利要求1所述的视频编辑方法,其特征在于,所述通过预设文本图像模型基于用户文本指令和所述目标视频帧图像对所述神经网络参数进行优化,获得优化后的神经视频场的步骤,包括:
6.如权利要求5所述的视频编辑方法,其特征在于,所述通过所述神经视频场对所述目标视频帧图像进行渲染,获得渲染视频帧图像的步骤,包括:
7.如权利要求5所述的视频编辑方法,其特征在于,所述基于所述渲染视频帧图像和所述编辑帧图像对所述神经网络参数进行优化,获得优化后的神经视频场的步骤,包括:
8.一种视频编辑装置,其特征在于,所述装置包括:
9.一种视频编辑设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频编辑程序,所述视频编辑程序配置为实现如权利要求1至7中任一项所述的视频编辑方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有视频编辑程序,所述视频编辑程序被处理器执行时实现如权利要求1至7任一项所述的视频编辑方法的步骤。