本说明书实施例涉及数据处理,特别涉及用于司机行为预测的多模态数据融合方法。
背景技术:
1、随着深度学习的不断发展,对司机行为预测的方法层出不穷,单一模态的数据输入已经不能满足技术需求,对多模态数据的处理成为当下研究的热门话题之一,对多模态数据的融合方法,主要分为数据级融合、特征级融合、决策级融合等,具体方法例如:向量拼接、加权融合、注意力机制融合、子空间学习等。
2、采用数据级、特征级融合的方法存在不同模态信息干扰的问题,并且融合后的数据量较大,导致模型复杂度过高;决策层融合虽然可以减少计算量,提高运行速度,但是对模态之间的相关性没有进行考虑,可能会导致结果不够准确。在目前常用的具体方法中:向量拼接通过简单的特征连接忽略了模态特有的统计属性;加权融合相较于向量拼接虽然考虑了不同特征的权重,但由于是从人的先验意识出发界定规则进行权重赋值,所以主观性较强,科学性较差。而注意力机制和子空间学习方法,尽管在融合中取得了不错的效果,但是也属于特征级融合方法,在司机驾驶行为预测的任务中,数据的种类繁多,数据量大,直接采用这样的方法难以适应实际的应用场景。由此亟需一种更好的方案。
技术实现思路
1、有鉴于此,本说明书实施例提供了用于司机行为预测的多模态数据融合方法。本说明书一个或者多个实施例同时涉及用于司机行为预测的多模态数据融合装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
2、根据本说明书实施例的第一方面,提供了一种用于司机行为预测的多模态数据融合方法,包括:
3、获取初始数据;其中,初始数据包括图像数据、音频数据和车辆状态数据;
4、基于初始数据的类别确定数据预处理规则,并基于数据预处理规则对初始数据进行处理,确定多模态特征;
5、基于多模态特征的类别进行数据融合,确定融合特征。
6、在一种可能的实现方式中,获取初始数据,包括:
7、通过车内摄像头获取图像数据;
8、通过车内麦克风获取音频数据;
9、通过车辆传感器获取车辆状态数据;
10、基于图像数据、音频数据和车辆状态数据确定初始数据。
11、在一种可能的实现方式中,基于数据预处理规则对初始数据进行处理,确定多模态特征,包括:
12、对图像数据进行裁剪,并基于时间窗口对裁剪后的数据进行特征提取,确定初始图像特征;
13、对初始图像特征进行降维处理,确定目标图像特征;
14、将音频数据转换为文本信息,基于文本信息确定音频文本系数;
15、基于音频数据确定梅尔频率倒谱系数张量,并基于梅尔频率倒谱系数张量进行mlp处理,确定声音特征;
16、基于车辆状态数据,通过卷积神经网络提取初始车辆状态特征,并基于初始车辆状态特征进行mlp处理,确定目标车辆状态特征;
17、基于图像数据确定视频帧数据,通过深度学习模型对视频帧数据进行特征提取,确定语义特征,并基于语义特征进行mlp处理,确定视频特征。
18、在一种可能的实现方式中,基于多模态特征的类别进行数据融合,确定融合特征,包括:
19、将目标图像特征、音频文本系数和声音特征通过第一注意力网络进行融合,得到第一中间特征。
20、在一种可能的实现方式中,基于多模态特征的类别进行数据融合,确定融合特征,包括:
21、将视频特征、音频文本系数和声音特征通过第一注意力网络进行融合,得到第二中间特征。
22、在一种可能的实现方式中,基于多模态特征的类别进行数据融合,确定融合特征,包括:
23、基于第一中间特征、第二中间特征和目标车辆状态特征,通过第二注意力网络进行融合,得到融合特征。
24、在一种可能的实现方式中,还包括:
25、基于融合特征进行模型训练,确定目标深度学习模型;
26、基于目标深度学习模型进行司机行为预测。
27、根据本说明书实施例的第二方面,提供了一种用于司机行为预测的多模态数据融合装置,包括:
28、数据获取模块,被配置为获取初始数据;其中,初始数据包括图像数据、音频数据和车辆状态数据;
29、特征提取模块,被配置为基于初始数据的类别确定数据预处理规则,并基于数据预处理规则对初始数据进行处理,确定多模态特征;
30、特征融合模块,被配置为基于多模态特征的类别进行数据融合,确定融合特征。
31、根据本说明书实施例的第三方面,提供了一种计算设备,包括:
32、存储器和处理器;
33、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述用于司机行为预测的多模态数据融合方法的步骤。
34、根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述用于司机行为预测的多模态数据融合方法的步骤。
35、根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述用于司机行为预测的多模态数据融合方法的步骤。
36、本说明书实施例提供用于司机行为预测的多模态数据融合方法及装置,其中用于司机行为预测的多模态数据融合方法包括:获取初始数据;其中,初始数据包括图像数据、音频数据和车辆状态数据;基于初始数据的类别确定数据预处理规则,并基于数据预处理规则对初始数据进行处理,确定多模态特征;基于多模态特征的类别进行数据融合,确定融合特征。通过获取初始数据;基于初始数据的类别确定数据预处理规则,并基于数据预处理规则对初始数据进行处理,确定多模态特征;基于多模态特征的类别进行数据融合,确定融合特征,可以实现将不同数据源的信息整合在一起,以更全面和准确地捕捉驾驶员行为的特征。
1.一种用于司机行为预测的多模态数据融合方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取初始数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述数据预处理规则对所述初始数据进行处理,确定多模态特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述多模态特征的类别进行数据融合,确定融合特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述多模态特征的类别进行数据融合,确定融合特征,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述多模态特征的类别进行数据融合,确定融合特征,包括:
7.根据权利要求1所述的方法,其特征在于,还包括:
8.一种用于司机行为预测的多模态数据融合装置,其特征在于,包括:
9.一种计算设备,其特征在于,包括:
10.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述用于司机行为预测的多模态数据融合方法的步骤。