视频问答方法、系统及任务解析方法、模型训练方法与流程

专利2026-02-14 44

本说明书一个或多个实施例涉及视频问答，尤其涉及一种视频问答方法、系统及任务解析方法、模型训练方法。

背景技术：

1、视频问答(video question answering，简称videoqa)是涉及计算机视觉、自然语言处理和多模态信息融合等多个领域的交叉研究方向，旨在使机器学习模型理解视频内容并以自然语言回答人类提出的问题。

2、在相关技术中，通过训练得到的视频问答模型，可以对用户提出的问题进行理解，并据此进行视频内容的解析，进而输出相应的答案。然而，相关技术中的方式仅能在简单videoqa的场景下提供令人满意的答案。所谓的简单videoqa，即用户提出的问题较为简单、浅显，只需要对视频进行较为表面的解析——譬如仅通过观察单个视频帧——就能得到准确地答案。

3、然而，现实情况下往往并非简单videoqa的场景，而更多涉及到复杂videoqa场景，即用户提出的问题具有一定深度，需要对视频进行深入解析才能够得到令人满意的答案。但是，相关技术无法满足复杂videoqa场景下的用户需求。

技术实现思路

1、有鉴于此，本说明书一个或多个实施例提供技术方案如下：

2、根据本说明书一个或多个实施例的第一方面，提出了一种视频问答方法，包括：

3、向目标视频问答模型输入待解析视频、待解答问题和候选原子视频问答任务集合，并引导所述目标视频问答模型基于所述待解析视频将所述待解答问题分解为待解答原子视频问答任务集合，所述待解答原子视频问答任务集合中包含至少一个来自所述候选原子视频问答任务集合中的候选原子视频问答任务；

4、针对所述待解析视频，分别确定出所述待解答原子视频问答任务集合中的各候选原子视频问答任务对应的原子视频解析答案；

5、向所述目标视频问答模型输入确定出的原子视频解析答案，以由所述目标视频问答模型根据获得的原子视频解析答案输出对应于所述待解答问题的最终视频解析答案。

6、根据本说明书一个或多个实施例的第二方面，提出了一种用于视频问答的原子任务解析方法，应用于与候选原子视频问答任务集合中的任一候选原子视频问答任务对应的原子任务解析库；其中，所述候选原子视频问答任务集合中的各候选原子视频问答任务分别存在对应的原子任务解析库；所述方法包括：

7、接收解析库调用请求，所述解析库调用请求用于指示相应原子任务解析库对待解析视频进行解析以完成所述任一候选原子视频问答任务；其中，在目标视频问答模型基于所述待解析视频将待解答问题分解为待解答原子视频问答任务集合，且所述待解答原子视频问答任务集合中包含所述任一候选原子视频问答任务的情况下，所述解析库调用请求被发起；

8、将所述待解析视频输入预定义的视频问答模型，并引导所述预定义的视频问答模型基于所述待解析视频提供对应于所述任一候选原子视频问答任务的输出；

9、根据所述预定义的视频问答模型的输出，返回对应于所述任一候选原子视频问答任务的原子视频解析答案，以由所述目标视频问答模型根据获得的原子视频解析答案输出对应于所述待解答问题的最终视频解析答案。

10、根据本说明书一个或多个实施例的第三方面，提出了一种视频问答协同系统，包括：

11、与候选原子视频问答任务集合中的各候选原子视频问答任务分别对应的原子任务解析库，用于通过预定义的视频问答模型对提供的视频进行解析以完成相应的原子视频问答任务；

12、模型代理服务，用于：

13、向目标视频问答模型输入待解析视频、待解答问题和所述候选原子视频问答任务集合，并引导所述目标视频问答模型基于所述待解析视频将所述待解答问题分解为待解答原子视频问答任务集合，所述待解答原子视频问答任务集合中包含至少一个来自所述候选原子视频问答任务集合中的候选原子视频问答任务；

14、基于所述待解答原子视频问答任务集合调用相匹配的原子任务解析库，并获得对应的原子视频解析答案；以及，

15、向所述目标视频问答模型输入确定出的原子视频解析答案，以由所述目标视频问答模型根据获得的原子视频解析答案输出对应于所述待解答问题的最终视频解析答案。

16、根据本说明书一个或多个实施例的第四方面，提出了一种视频问答系统，包括：

17、目标视频问答模型；

18、如第三方面所述的视频问答协同系统。

19、根据本说明书一个或多个实施例的第五方面，提出了一种视频问答模型的训练方法，包括：

20、获取训练集，所述训练集中的每一训练样本包括样本视频、样本问题和样本待解答原子视频问答任务集合，所述样本待解答原子视频问答任务集合中包含至少一个来自候选原子视频问答任务集合中的候选原子视频问答任务；

21、将所述训练集和所述候选原子视频问答任务集合输入目标视频问答模型，并获得其针对每一训练样本分别输出的实际待解答原子视频问答任务集合，所述实际待解答原子视频问答任务集合由所述目标视频问答模型基于相应训练样本中的样本视频对相应训练样本中的样本问题进行分解得到，且所述实际待解答原子视频问答任务集合中包含至少一个来自所述候选原子视频问答任务集合中的候选原子视频问答任务；

22、根据所述实际待解答原子视频问答任务集合与所述样本待解答原子视频问答任务集合之间的差异，对所述目标视频问答模型进行迭代更新。

23、根据本说明书一个或多个实施例的第六方面，提出了一种视频问答模型的训练方法，包括：

24、获取训练集，所述训练集中的每一训练样本包括样本视频、样本问题和样本最终视频解析答案；

25、将所述训练集和候选原子视频问答任务集合输入目标视频问答模型，并获得其针对每一训练样本分别输出的待解答原子视频问答任务集合，所述待解答原子视频问答任务集合由所述目标视频问答模型基于相应训练样本中的样本视频对相应训练样本中的样本问题进行分解得到，且所述待解答原子视频问答任务集合中包含至少一个来自所述候选原子视频问答任务集合中的候选原子视频问答任务；

26、针对每一训练样本中的样本视频，分别确定出相应的待解答原子视频问答任务集合中的各候选原子视频问答任务对应的原子视频解析答案，并向所述目标视频问答模型输入确定出的原子视频解析答案，以由所述目标视频问答模型输出对应于相应训练样本中的样本问题的实际最终视频解析答案；

27、根据预定义的损失函数，对所述目标视频问答模型进行迭代更新；其中，所述损失函数包括答案差异项，所述答案差异项为所述实际最终视频解析答案与所述样本最终视频解析答案之间的差异。

28、根据本说明书一个或多个实施例的第七方面，提出了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如第一方面、第二方面、第五方面或第六方面所述方法的步骤。

29、根据本说明书一个或多个实施例的第八方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面、第二方面、第五方面或第六方面所述方法的步骤。

30、根据本说明书一个或多个实施例的第九方面，提出了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如第一方面、第二方面、第五方面或第六方面所述方法的步骤。

31、由上述实施例可知，本说明书通过定义候选原子视频问答任务，可以引导目标视频问答模型将原本较为复杂的待解答问题分解为相对简单的候选原子视频问答任务，相当于对待解答问题所同时面临的多个维度进行了拆解，使得在进一步针对各个候选原子视频问答任务分别对待解析视频进行解析时，相比于直接基于待解答问题对待解析视频进行解析而言，能够显著降低视频解析的难度与复杂度，并且能够更加准确、深入地解析出该待解析视频所含的视频内容。进一步的，由目标视频问答模型基于各个原子视频解析答案进行综合推理，能够充分利用各个候选原子视频问答任务从各自对应维度所解析的视频内容，从而获得更为准确的答案，故而能够更好地适用于复杂videoqa场景。

技术特征：

1.一种视频问答方法，包括：

2.根据权利要求1所述的方法，所述分别确定出所述待解答原子视频问答任务集合中的各候选原子视频问答任务对应的原子视频解析答案，包括：

3.根据权利要求2所述的方法，所述通过区别于所述目标视频问答模型的其他视频问答模型，确定出所述原子视频解析答案，包括：

4.根据权利要求2所述的方法，所述通过所述目标视频问答模型或区别于所述目标视频问答模型的其他视频问答模型，确定出所述原子视频解析答案，包括：

5.根据权利要求1所述的方法，还包括：

6.根据权利要求5所述的方法，所述目标视频问答模型规划出的路径包括：

7.根据权利要求1所述的方法，所述候选原子视频问答任务集合中的候选原子视频问答任务，包括如下类型中至少之一：

8.根据权利要求1所述的方法，所述目标视频问答模型包括：大型多模态模型。

9.一种用于视频问答的原子任务解析方法，应用于与候选原子视频问答任务集合中的任一候选原子视频问答任务对应的原子任务解析库；其中，所述候选原子视频问答任务集合中的各候选原子视频问答任务分别存在对应的原子任务解析库；所述方法包括：

10.一种视频问答协同系统，包括：

11.根据权利要求10所述的系统，所述模型代理服务还用于：

12.一种视频问答系统，包括：

13.一种视频问答模型的训练方法，包括：

14.一种视频问答模型的训练方法，包括：

15.根据权利要求14所述的方法，所述针对每一训练样本中的样本视频，分别确定出相应的实际待解答原子视频问答任务集合中的各候选原子视频问答任务对应的原子视频解析答案，包括：

16.根据权利要求14所述的方法，还包括：

17.根据权利要求14所述的方法，

18.一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如权利要求1-9、13-17中任一项所述方法的步骤。

19.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-9、13-17中任一项所述方法的步骤。

20.一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如权利要求1-9、13-17中任一项所述方法的步骤。

技术总结
本说明书一个或多个实施例提供一种视频问答方法、系统及任务解析方法、模型训练方法，该视频问答方法包括：向目标视频问答模型输入待解析视频、待解答问题和候选原子视频问答任务集合，并引导目标视频问答模型基于待解析视频将待解答问题分解为待解答原子视频问答任务集合；针对待解析视频，分别确定出待解答原子视频问答任务集合中的各候选原子视频问答任务对应的原子视频解析答案；向目标视频问答模型输入确定出的原子视频解析答案，以由目标视频问答模型根据获得的原子视频解析答案输出对应于待解答问题的最终视频解析答案。

技术研发人员：郭清沛,陈昱妍,杨铭
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-19861.html

专利

最新回复(0)