基于多模态模型的意图识别方法、装置、设备及存储介质与流程

专利2026-05-05 8

本技术涉及意图识别，尤其涉及一种基于多模态模型的意图识别方法、装置、设备及存储介质。

背景技术：

1、当将自然语言命令融入机器人控制策略的理念应用于人机协作时，人类用户可能需要在长期任务的每一步与机器人进行对话。这种情况在人与人之间的协作中很少发生，因为人类能够依靠他们对任务的共享知识来跟踪合作伙伴的进度。这种差异源于人类之间的默契和共同经验的积累，使得他们可以在不频繁沟通的情况下高效合作。然而，机器人目前缺乏这种共同知识和默契，必须通过频繁的自然语言交流来确保任务的正确执行和进度跟踪。这反映了当前机器人在理解和预测人类意图方面的局限性，需要进一步提升机器人在复杂任务中的自主性和智能化水平，以减少对人类频繁指令的依赖，从而实现更加流畅和高效的人机协作。

技术实现思路

1、本技术提供一种基于多模态模型的意图识别方法、装置、设备及存储介质。以解决上述背景技术提出的问题。

2、第一方面，本技术提供一种基于多模态模型的意图识别方法，包括：

3、获取文本指令信息和目标视频；

4、将所述文本指令信息输入预设的文本特征提取模型，得到文本指令特征信息；

5、对所述目标视频进行分帧处理，得到所述目标视频对应的视频帧序列；

6、将所述视频帧序列输入预设的视觉特征提取模型，得到视觉特征信息；

7、将所述文本指令特征信息与所述视觉特征信息进行融合，得到融合特征信息，并将所述融合特征信息输入预设的多模态模型，得到用户意图文本。

8、在一种可能的实现方式中，所述获取文本指令信息和目标视频，包括：

9、响应用户对所述文本指令信息的输入，获取所述文本指令信息；

10、在获取到所述文本指令信息之后，通过预设的摄像装置获取所述用户的操作图像，直至所述用户停止操作。

11、在一种可能的实现方式中，所述将所述视频帧序列输入预设的视觉特征提取模型，得到视觉特征信息，包括：

12、将所述视频帧序列输入预设的视觉特征提取模型；所述视觉特征提取模型包括图像特征提取层、3d卷积层、多机制时序增强层和可学习投射层；

13、所述图像特征提取层分别对所述视频帧序列中的各个视频帧依序进行特征提取，得到图像特征序列，并将所述图像特征序列输入所述3d卷积层；

14、所述3d卷积层对所述图像特征序列中的各个图像特征依序进行卷积处理，得到卷积特征序列，并将所述卷积特征序列输入所述多机制时序增强层；

15、所述多机制时序增强层对所述卷积特征序列进行时序增强处理，得到初始视觉特征信息，并将所述初始视觉特征信息输入所述可学习投射层；

16、所述可学习投射层对所述初始视觉特征信息进行投射，得到所述视觉特征信息。

17、在一种可能的实现方式中，所述多模态模型的训练方法，包括：

18、获取多任务训练数据集；所述多任务训练数据集包括多个任务的训练数据；

19、构建专家混合模型；所述专家混合模型包括任务指示器、多个专家子模型和基础意图识别模型；

20、在所述专家混合模型中冻结所述基础意图识别模型的模型参数，并基于所述多个任务的训练数据对所述专家混合模型进行多任务训练，得到所述多模态模型。

21、在一种可能的实现方式中，所述基于所述多个任务的训练数据对所述专家混合模型进行多任务训练，得到所述多模态模型，包括：

22、针对各个所述任务，利用低秩适应方法通过所述任务对应的训练数据对所述任务对应的专家子模型进行训练，得到所述专家子模型对应的低秩适应权重；

23、基于所述多个任务的训练数据对所述任务指示器进行训练；

24、针对各个所述专家子模型，基于所述专家子模型对应的低秩适应权重对所述专家子模型进行初始化，得到中间多模态模型；

25、基于所述多任务训练数据集对所述中间多模态模型进行训练，得到所述多模态模型。

26、在一种可能的实现方式中，所述获取多任务训练数据集，包括：

27、获取若干个初始训练视频；其中，所述初始训练视频包括人类行为；

28、针对各个所述初始训练视频，对所述初始训练视频进行分帧处理，得到所述初始训练视频对应的训练视频帧序列；

29、针对各个所述初始训练视频，将所述初始训练视频对应的训练视频帧序列分割为第一训练视频帧子序列和第二训练视频帧子序列，并确定所述第一训练视频帧子序列构成的视频为目标训练视频；其中，所述第二训练视频帧子序列位于所述第一训练视频帧子序列之后；

30、针对各个所述初始训练视频，基于所述初始训练视频对应的训练视频帧序列生成所述初始训练视频对应的意图和指令；

31、针对各个所述初始训练视频，基于所述初始训练视频对应的场景信息确定所述初始训练视频对应的任务信息；其中，所述任务信息包括至少一个任务；

32、针对各个所述初始训练视频，构建所述初始训练视频对应的目标训练视频与所述初始训练视频对应的意图、指令和任务信息之间的映射关系，得到所述多任务训练数据集。

33、在一种可能的实现方式中，所述基于所述初始训练视频对应的训练视频帧序列生成所述初始训练视频对应的意图和指令，包括：

34、将所述训练视频帧序列的第一个初始训练视频帧输入所述视觉语言模型，得到所述第一个初始训练视频帧的第一视频字幕；其中，所述视觉语言模型是预先训练完成的神经网络模型；

35、将所述第一视频字幕和所述训练视频帧序列的第二个初始训练视频帧输入所述视觉语言模型，得到所述第二个初始训练视频帧的第二视频字幕；

36、将所述第二视频字幕和所述训练视频帧序列的第三个初始训练视频帧输入所述视觉语言模型，得到所述第三个初始训练视频帧的第三视频字幕；

37、迭代所述将所述第一视频字幕和所述训练视频帧序列的第二个初始训练视频帧输入所述视觉语言模型，得到所述第二个初始训练视频帧的第二视频字幕之后的步骤，直至得到所述训练视频帧序列的最后一个初始训练视频帧的视频字幕；

38、将各个视频字幕依序输入预设的大语言模型，得到第一语言描述信息，并基于所述第一语言描述信息生成所述指令；其中，所述大语言模型是预先训练完成的神经网络模型；

39、将所述第二训练视频帧子序列中的各个初始训练视频帧对应的视频字幕依序输入所述大语言模型，得到第二语言描述信息，并基于所述第二语言描述信息生成所述意图。

40、第二方面，本技术提供一种基于多模态模型的意图识别装置，包括：

41、获取模块，用于获取文本指令信息和目标视频；

42、第一输入模块，用于将所述文本指令信息输入预设的文本特征提取模型，得到文本指令特征信息；

43、分帧处理模块，用于对所述目标视频进行分帧处理，得到所述目标视频对应的视频帧序列；

44、第二输入模块，用于将所述视频帧序列输入预设的视觉特征提取模型，得到视觉特征信息；

45、融合模块，用于将所述文本指令特征信息与所述视觉特征信息进行融合，得到融合特征信息，并将所述融合特征信息输入预设的多模态模型，得到用户意图文本。

46、第三方面，本技术提供一种终端设备，所述终端设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中，所述计算机程序被所述处理器执行时，实现如上任一项所述的基于多模态模型的意图识别方法。

47、第四方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被处理器执行时，实现如上任一项所述的基于多模态模型的意图识别方法。

48、本技术提供了基于多模态模型的意图识别方法、装置、设备及存储介质。该方法包括：获取文本指令信息和目标视频；将所述文本指令信息输入预设的文本特征提取模型，得到文本指令特征信息；对所述目标视频进行分帧处理，得到所述目标视频对应的视频帧序列；将所述视频帧序列输入预设的视觉特征提取模型，得到视觉特征信息；将所述文本指令特征信息与所述视觉特征信息进行融合，得到融合特征信息，并将所述融合特征信息输入预设的多模态模型，得到用户意图文本。该方法，一方面，通过获取文本指令信息和目标视频，并对文本指令信息和目标视频分别进行特征提取，确保了输入数据的多样性和丰富性，有助于捕捉任务相关的细节信息。另一方面，文本特征提取模型和视觉特征提取模型分别对文本指令和视频帧序列进行处理，生成高质量的特征信息，使得多模态模型能够更全面地理解输入数据的语义和内容，这种多层次、多模态的特征提取方式提高了模型的信息捕捉能力。再一方面，通过将文本指令特征信息与视觉特征信息进行融合，生成融合特征信息，实现了多模态数据的有效整合，增强了模型在复杂场景中的理解和推理能力。将本实施例的方法应用于机器人时，能够使机器人在复杂任务中，减少对人类频繁指令的依赖，从而实现更加流畅和高效的人机协作。

技术特征：

1.一种基于多模态模型的意图识别方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态模型的意图识别方法，其特征在于，所述获取文本指令信息和目标视频，包括：

3.根据权利要求1所述的基于多模态模型的意图识别方法，其特征在于，所述将所述视频帧序列输入预设的视觉特征提取模型，得到视觉特征信息，包括：

4.根据权利要求1所述的基于多模态模型的意图识别方法，其特征在于，所述多模态模型的训练方法，包括：

5.根据权利要求4所述的基于多模态模型的意图识别方法，其特征在于，所述基于所述多个任务的训练数据对所述专家混合模型进行多任务训练，得到所述多模态模型，包括：

6.根据权利要求5所述的基于多模态模型的意图识别方法，其特征在于，所述获取多任务训练数据集，包括：

7.根据权利要求6所述的基于多模态模型的意图识别方法，其特征在于，所述基于所述初始训练视频对应的训练视频帧序列生成所述初始训练视频对应的意图和指令，包括：

8.一种基于多模态模型的意图识别装置，其特征在于，包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中，所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的基于多模态模型的意图识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的基于多模态模型的意图识别方法。

技术总结
本申请涉及意图识别技术领域，提供了基于多模态模型的意图识别方法、装置、设备及存储介质。该方法包括：获取文本指令信息和目标视频；将所述文本指令信息输入预设的文本特征提取模型，得到文本指令特征信息；对所述目标视频进行分帧处理，得到所述目标视频对应的视频帧序列；将所述视频帧序列输入预设的视觉特征提取模型，得到视觉特征信息；将所述文本指令特征信息与所述视觉特征信息进行融合，得到融合特征信息，并将所述融合特征信息输入预设的多模态模型，得到用户意图文本。将该方法应用于机器人时，能够使机器人在复杂任务中，减少对人类频繁指令的依赖，从而实现更加流畅和高效的人机协作。

技术研发人员：柳荣强,唐诗,崔伊然,邓煜平,邓翔,孙腾
受保护的技术使用者：深圳若愚科技有限公司
技术研发日：
技术公布日：2024/11/11

转载请注明原文地址: https://tieba.8miu.com/read-20938.html

专利

最新回复(0)