一种基于重构故事剧本的自动化二创方法与系统

专利2026-02-19 13

本发明涉及计算机视觉领域的视频分析处理问题，属于一种基于重构故事剧本的自动化二创方法与系统。

背景技术：

1、二创(即二创，影视素材再剪辑视频，即创作者在此类创作中会利用数据库中的素材，用重新组织的镜头语言对片段进行拼贴，如截取角色的关键话语，重新组合为新的故事)目前是各个视频平台中非常受欢迎的一种视频内容，并已然成为了制作方进行热度推广的重要工具。二创自动化方法的发展降低了优质二创内容的创作门槛，有利于影视剧推广，能够推进影视行业发展。

2、自动化二创的核心主要难点集中在视频素材的检索：

3、(1)人工智能内容生成

4、视觉内容生成是人工智能领域近几年最炙手可热的话题，随着算法以及算力的不断发展，目前生成内容的质量不论在写实的真实性上还是创造的多样性上都展现出了令人惊叹的能力。而相关技术目前最主要分为生成对抗网络与扩散模型两类。

5、生成对抗网络主要由生成器和判别器两部分组成，其中生成器从随机噪声(通常是多维正态分布或均匀分布)生成伪造数据，判别器用于用于区分真实数据和生成数据。训练过程包括生成器和判别器的交替训练。首先，生成器从随机噪声中生成伪造样本；然后，判别器尝试区分真实数据和伪造数据。判别器的损失通过其判断的准确性来计算，并通过反向传播更新其参数。接着，生成器试图欺骗判别器，使其认为伪造数据是真实的。生成器的损失根据判别器对伪造样本的判断计算，通过反向传播更新生成器的参数。这个过程反复进行，直到生成器生成的样本逼真到判别器难以区分。

6、扩散模型，通过一系列逐步添加噪声的过程来训练，并反向去噪生成数据。其工作流程如下：前向扩散过程：从原始数据开始，逐步添加高斯噪声，生成多个噪声图像，直到最终变成纯噪声。这一过程定义了数据分布向噪声分布的转变；反向生成过程：通过训练一个神经网络模型，学习从噪声图像反向还原到原始图像的每一步去噪操作。该模型在每一步预测当前带噪声图像的去噪版本，逐步去除噪声；采样过程：从纯噪声开始，应用训练好的去噪模型，逐步去除噪声，逆向还原数据。

7、(2)视频检索

8、视频检索的任务主要完成从文本到视频的匹配，主要有语义检索与描述性文本检索。其中语义检索主要是通过多个简单语义的复合检索，例如人物、地点、动作，相关方法主要集中于首先完成单个语义的检索后再将单个语义的检索结果进行融合。而描述性文本检索则是通过一整句的文本寻找最契合文本的视频片段，主要做法是通过文本与视觉两种模态信息的编码器编码得到相应特征后进行相似度计算，取相似度最高的视频作为检索结果。

9、但是，以上两种方法都是基于描述性文本进行后续的生成或检索，与二创所需的根据剧本文本进行创作的特点相去甚远，无法满足二次创作的要求。

技术实现思路

1、本发明的目的在于尝试将影视剧镜头中的多模态内容进行解构标注，并依据标注标签进行自编、自导、自演三个阶段的自动化二创创作。

2、本发明的技术方案为一种基于重构故事剧本的自动化二创方法，包括以下步骤：

3、步骤1，进行素材库构建，包括视觉标注库，音频标注库和文本标注库；

4、步骤2，重构剧本生成，创作者输入需要创作的故事情节，使用预先设计好的提示词格式引导大语言模型生成对应剧本，并使用文本标注数据限制生成台词的长度，最后预测每句台词对应的持续时长，其中剧本包括人物、地点、台词与对应情绪；

5、步骤3，基于剧本台词的素材选择，对步骤2生成剧本的每句台词根据步骤1得到的标注信息，选择对应的契合镜头，实现从台词到镜头的一对一映射；

6、步骤4，对步骤3所选素材进行后期处理，包括基于台词的音频生成与唇形同步；

7、步骤5，将步骤4得到的所有的素材拼接得到成片。

8、进一步的，步骤1中，针对视觉标注：使用scrfd与arcface在视频上逐帧进行人脸检测与人脸识别以获得人物身份c，并在人脸框的基础上使用关键点标注与情绪识别获得面部朝向o与人物情绪e，随后使用faster rcnn进行跟踪检测,结合跟踪框与人脸框的位置信息获得人物服装的切片图u，如果一部剧集中共切分出n个镜头，那么视觉标注表示为v＝{v1,v2,…,vn}；其中vn代表第n个视频的标注信息。

9、进一步的，步骤1中，针对音频标注：首先使用uvr5工具对原始音频进行消噪，随后结合身份信息通过声纹识别多轮过滤离群值得到身份音频库aidt＝{a1,a2,…,am}，其中am表示该音频库中的第m条音频。

10、进一步的，步骤1中，对于文本标注：首先进行台词时长拟合得到拟合函数，其公式如下：

11、

12、其中i为角色身份，j为角色情绪，f为台词长度，α,β为拟合函数参数，同时对台词的长度分布进行统计，得到分布d(i,j)，其含义为针对每个角色i在情绪j下的台词长度分布统计值。

13、进一步的，步骤3的具体实现包括以下子步骤：

14、步骤3.1，硬约束，使用预测时长，人物身份以及地点信息进行可用素材的过滤，得到每句台词对应的备选素材库

15、步骤3.2，软排序，使用面部朝向与服装颜色相似对备选素材库的可用性进行排序，其中对于面部朝向，基于已选择的镜头，同一身份的角色按照朝向相同、朝向正中与朝向相反三个组别进行优先级排序，而不同身份的角色则按照相反朝向、朝向正中与朝向相同三个组别进行优先级排序；而对于服装颜色相似度，使用相似度函数进行相似度评价，并在每个面部朝向组别中按照相似度分数从大到小进行排序并得到排序素材库

16、进一步的，备选素材库的计算公式如下：

17、

18、)

19、上述公式表示剔除镜头中所有不包含角色ci，时长小于预测时长以及地点不在l的镜头，为示性函数，当条件为真时取值为1，假时为0，vj为第j个镜头的标注，v[·]为使用镜头标注的对应字段，t为视频的时长字段，l为视频的发生地点字段。

20、进一步的，步骤3.2中相似度函数dcol的计算公式如下：

21、

22、其中λ1,λ2为服装1与服装2的lab空间的色彩向量，i表示其共有三个分量，其中l为明度，a代表从绿色到红色的分量，b代表从蓝色到黄色的分量。

23、进一步的，步骤4中，对于音频生成，使用gptsovits进行生成，首先根据步骤1中得到的身份音频库微调预训练gptsovits模型，之后输入重构剧本中的台词得到音频agen，随后将生成的音频与对应镜头输入wav2lip模型进行唇形同步，得到最终视频。

24、本发明还提供基于重构故事剧本的自动化二创系统，包括以下模块：

25、素材库构建模块，用于进行素材库构建，包括视觉标注库，音频标注库和文本标注库；

26、剧本生成模块，用于重构剧本生成，创作者输入需要创作的故事情节，使用预先设计好的提示词格式引导大语言模型生成对应剧本，并使用文本标注数据限制生成台词的长度，最后预测每句台词对应的持续时长，其中剧本包括人物、地点、台词与对应情绪；

27、素材选择模块，用于基于剧本台词的素材选择，对剧本生成模块生成剧本的每句台词根据素材库构建模块得到的标注信息，选择对应的契合镜头，实现从台词到镜头的一对一映射；

28、后期处理模块，用于对素材选择模块所选素材进行后期处理，包括基于台词的音频生成与唇形同步；

29、拼接成品模块，用于将后期处理模块得到的所有的素材拼接得到成片。

30、本发明可以自动化地完成二创内容的制作，具有以下优点：1、对影视剧镜头多模态内容的详细标注，多模态的信息标签可以帮助我们在后续的选择环节更好地过滤素材；2、引入大语言模型进行剧本创作，剧本的写作往往需要创作者接受一些专业训练，而大语言模型的加入大大降低了这一环节的难度；3、为自导阶段设计了两阶段素材选择方法，使得选择出的素材更加贴合台词。

技术特征：

1.基于重构故事剧本的自动化二创方法，其特征在于，包含以下步骤：

2.根据权利要求1中所述的基于重构故事剧本的自动化二创方法，其特征在于：步骤1中，针对视觉标注：使用scrfd与arcface在视频上逐帧进行人脸检测与人脸识别以获得人物身份c，并在人脸框的基础上使用关键点标注与情绪识别获得面部朝向o与人物情绪e，随后使用faster rcnn进行跟踪检测,结合跟踪框与人脸框的位置信息获得人物服装的切片图u，如果一部剧集中共切分出n个镜头，那么视觉标注表示为v＝{v1,v2,…,vn}；其中vn代表第n个视频的标注信息。

3.根据权利要求1中所述的基于重构故事剧本的自动化二创方法，其特征在于：步骤1中，针对音频标注：首先使用uvr5工具对原始音频进行消噪，随后结合身份信息通过声纹识别多轮过滤离群值得到身份音频库

4.根据权利要求1中所述的基于重构故事剧本的自动化二创方法，其特征在于：步骤1中，对于文本标注：首先进行台词时长拟合得到拟合函数，其公式如下：

5.根据权利要求1中所述的基于重构故事剧本的自动化二创方法，其特征在于：步骤3的具体实现包括以下子步骤：

6.根据权利要求5中所述的基于重构故事剧本的自动化二创方法，其特征在于：备选素材库的计算公式如下：

7.根据权利要求5中所述的基于重构故事剧本的自动化二创方法，其特征在于：步骤3.2中相似度函数dcol的计算公式如下：

8.根据权利要求3中所述的基于重构故事剧本的自动化二创方法，其特征在于：步骤4中，对于音频生成，使用gptsovits进行生成，首先根据步骤1中得到的身份音频库微调预训练gptsovits模型，之后输入重构剧本中的台词得到音频agen，随后将生成的音频与对应镜头输入wav2lip模型进行唇形同步，得到最终视频。

9.基于重构故事剧本的自动化二创系统，其特征在于，包括以下模块：

技术总结
本发明提供了一种基于重构故事剧本的自动化二创方法与系统。该方法首先对影视剧镜头进行多模态信息标注，其中视觉标注包括人物身份、人物情绪、面部朝向以及服装切片，音频标注通过声纹识别构建身份音频库，文本标注拟合台词时长与长度的关系并统计台词长度分布。随后进入创作流程，首先在大语言模型的帮助下进行剧本创作，其次在所提出的两阶段素材选择算法下基于台词对素材进行筛选，最后对素材进行音频生成以及唇形同步两项后期处理。本发明所提出的基于重构故事剧本的自动化二创方法充分结构了影视剧特点，极大的降低了二创作品的创作门槛，并能使整体流程自动化。

技术研发人员：梁超,李睿哲
受保护的技术使用者：武汉大学
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-20038.html

专利

最新回复(0)