一种基于视频的驾驶行为分析方法、电子设备和存储介质与流程

专利2023-06-08  116



1.本发明涉及行为识别技术领域,具体涉及一种基于视频的驾驶行为分析方法、电子设备和存储介质。


背景技术:

2.目前,针对于驾驶员的行为分析变得愈发重要,能够及时对驾驶员的异常行为进行分析、识别,有助于驾驶安全性的管理。
3.在相关技术中,基于cnn和lstm结合的行为识别方法、基于双流数据的卷积神经网络实现行为识别方法,计算量大,识别速度慢,且预测性能不佳。同时,现有的驾驶行为识别技术以面部图像分析为主,缺少整体行为分析。


技术实现要素:

4.本发明提供了一种基于视频的驾驶行为分析方法、电子设备和存储介质,以解决上述技术问题。
5.本发明通过下述技术方案实现:
6.第一方面,本发明提供了一种基于视频的驾驶行为分析方法,包括以下步骤:
7.s1、将驾驶视频转为图像帧,以视频流的方式进行分析;
8.s2、通过卷积神经网络检测每个图像帧中的驾驶员,得到对应于驾驶员的检测框;
9.s3、通过骨架检测网络提取所述检测框中驾驶员的骨架姿态信息,所述骨架姿态信息包括每一个骨架关节点的属性名、位置信息以及连接信息,所述连接信息包括帧内连接信息及帧间连接信息,其中,所述帧内连接信息表示身体的骨架关节点的自然连接关系,所述帧间连接信息表示连续图像帧之间相同骨架关节点之间的连接关系;
10.s4、将所述骨架姿态信息编码为张量形式,其中,所述帧内连接信息由第一邻接矩阵表示,所述帧间连接信息由第二邻接矩阵表示;
11.s5、将c时间内张量形式的所述骨架姿态信息输入到时空图卷积网络模块,得到行为分析结果,所述时空图卷积网络模块包括时空图卷积transformer模块、全局平均池化层及 softmax层,所述时空图卷积transformer模块包括时空卷积及时间维度的注意力模块;其中, c指的是一个时间滑动窗口,以包含当前时间及其前后时间段的图像信息。
12.进一步地,所述时空卷积至少包括空间图卷积、时间图卷积和空间图transformer三个部分;其中,在每个部分后应用残差连接和批归一化,在时空卷积的最后应用前馈网络和批归一化处理。
13.进一步地,所述空间图transformer包含三个步骤,首先由线性投影将特征张量转换为3 个不同特征向量q、k、v;然后将q与k做点积得到相邻顶点之间的注意力得分,并经过尺度变换和softmax;最后与v做点积,以求和方式聚合相邻顶点的注意力增强值,并重复多次得到多头注意力图transformer结果。
14.进一步地,所述时间维度的注意力模块包括核卷积、求和、全局平均池化、全连接
层、激活函数和softmax;其中,在所述核卷积和全连接层后应用残差连接。
15.进一步地,所述驾驶行为分析方法还包括步骤s6:对部分或全部的所述驾驶视频的行为分析结果进行统计分析。
16.进一步地,所述统计分析的内容包括驾驶行为、驾驶行为发生的时间段或驾驶行为的占比率中的至少一种。
17.进一步地,所述卷积神经网络包括faster rcnn、maskr-cnn或yolo。
18.进一步地,所述骨架检测网络包括cpm、sppe或mspn。
19.第二方面,本发明提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机可执行程序,所述处理器运行所述计算机可执行程序时实现如上所述的基于视频的驾驶行为分析方法。
20.第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于视频的驾驶行为分析方法。
21.本发明与现有技术相比,具有如下的优点和有益效果:
22.本发明通过将驾驶员的骨架姿态信息与图卷积、transformer相结合,将二维骨架信息通过张量进行表示;同时,通过邻接矩阵的方式,对时间和空间维度上的骨架关节点信息进行表示,将骨架张量信息用于时空图卷积网络学习,得到行为预测结果;此外,对时空图卷积网络加入图transformer和时间注意力机制,提升对行为的预测性能;本发明不仅仅局限于驾驶员的面部行为分析,更对驾驶员的整体行为分析,不仅仅局限于异常行为的分析,也对驾驶员的全套行为进行分析;相较于运用图像卷积直接学习预测行为的技术,本发明计算量小,对硬件要求低,识别速度快,准确率高。
附图说明
23.此处所说明的附图用来提供对本发明实施例的进一步理解,构成本技术的一部分,并不构成对本发明实施例的限定。在附图中:
24.图1为本发明实施例驶行为分析方法的流程示意图。
具体实施方式
25.为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例及附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
26.实施例1
27.第一方面,如图1所示,本发明提供了一种基于视频的驾驶行为分析方法,包括以下步骤:
28.s1、将驾驶视频转为图像帧,以视频流的方式进行分析。这里,驾驶视频转为图像帧时可根据实际情况设定抽帧频率。
29.s2、通过卷积神经网络检测每个图像帧中的驾驶员,得到对应于驾驶员的检测框。这里,检测框中的区域可作为感兴趣区域。
30.s3、通过骨架检测网络提取所述检测框中驾驶员的骨架姿态信息,所述骨架姿态
信息包括每一个骨架关节点的属性名、位置信息以及连接信息,所述连接信息包括帧内连接信息及帧间连接信息,其中,所述帧内连接信息表示身体的骨架关节点的自然连接关系,所述帧间连接信息表示连续图像帧之间相同骨架关节点之间的连接关系。例如,可对骨架关节点进行编号,根据编号顺序,利用其坐标进行连接,若某个关节点不存在,该关节点的坐标可设置为(-1,-1)。例如,骨架关节点的属性名可包含左耳、右耳、左眼、右眼、鼻子、嘴、下巴、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左手掌、右手掌、左髋、右髋、左膝、右膝,共20个,编号为0-19。此外,骨架关节点也可包含超过20个节点,以更清楚、更准确地分析驾驶员的行为,本发明不限于此。
31.s4、将所述骨架姿态信息编码为张量形式,其中,所述帧内连接信息由第一邻接矩阵表示,所述帧间连接信息由第二邻接矩阵表示。
32.s5、将c时间内张量形式的所述骨架姿态信息输入到时空图卷积网络模块,得到行为分析结果,所述时空图卷积网络模块包括时空图卷积transformer模块、全局平均池化层及 softmax层,所述时空图卷积transformer模块包括时空卷积及时间维度的注意力模块。其中, c指的是一个时间滑动窗口,以包含当前时间及其前后时间段的图像信息。例如,在预测当前时间t的行为时,网络可以计算t-(c-1)/2到t+(c-1)/2之间的图像信息。例如,当c=3时,也就是说在预测时刻t的行为时,网络计算t-1到t+1的图像信息实现行为识别。
33.上述技术方案的工作原理如下:
34.本发明通过将驾驶员的骨架姿态信息与图卷积、transformer相结合,将二维骨架信息通过张量进行表示;同时,通过邻接矩阵的方式,对时间和空间维度上的骨架关节点信息进行表示,将骨架张量信息用于时空图卷积网络学习,得到行为预测结果;此外,对时空图卷积网络加入图transformer和时间注意力机制,提升对行为的预测性能;本发明不仅仅局限于驾驶员的面部行为分析,更对驾驶员的整体行为分析,不仅仅局限于异常行为的分析,也对驾驶员的全套行为进行分析;相较于运用图像卷积直接学习预测行为的技术,本发明计算量小,对硬件要求低,识别速度快,准确率高。
35.例如,所包含的全套驾驶行为分为基本行为、异常行为、特殊行为和未知行为。
36.1、基本行为可包括:直行行驶,左转方向盘,右转方向盘,调节档位,观看后视镜等。
37.(1)直行行驶指双手握住方向盘,无明显动作;或指左手握住方向盘,右手搭在换挡杆上,无明显动作。
38.(2)左转方向盘指双手握住方向盘,两只手交替向逆时针方向旋转移动;或指左手有明显幅度的逆时针方向旋转移动。
39.(3)右转方向盘指双手握住方向盘,两只手交替向顺时针方向旋转移动;或指左手有明显幅度的顺时针方向旋转移动。
40.(4)调节档位指左手握住方向盘,右手往下移动,接触换挡杆并有所移动操作。
41.(5)观看后视镜指头有所转动,眼睛看向后视镜。
42.2、异常行为可包括:接打电话,手离开方向盘,玩手机,交谈,抽烟等。
43.(1)接打电话指一手持手机,一手握住方向盘,或通过蓝牙耳机,伴有嘴部和下巴的移动。
44.(2)手离方向盘指两只手均未握住方向盘,或一只手握住方向盘,另一只手并未搭
在换挡杆。
45.(3)玩手机指有一只手持手机,且有频繁或长时间低头动作。
46.(4)交谈指与车内其他人交谈,期间伴有嘴部和下巴的移动,也可能伴有转头等动作。
47.(5)抽烟指一只手捏着烟头,靠近嘴部与挪开动作交替进行。
48.3、特殊行为可包括:急刹,突然加速等。
49.(1)急刹指躯体在短时间内有明显的前倾。
50.(2)突然加速指躯体在短时间内有明显的后倒。
51.4、未知行为可通过后续的实践经验来进行设定。
52.在另外的实施例中,所述时空卷积至少包括空间图卷积、时间图卷积和空间图transformer 三个部分;其中,在每个部分后应用残差连接和批归一化,在时空卷积的最后应用前馈网络和批归一化处理。
53.在另外的实施例中,所述空间图transformer包含三个步骤,首先由线性投影将特征张量转换为3个不同特征向量q、k、v;然后将q与k做点积得到相邻顶点之间的注意力得分,并经过尺度变换和softmax;最后与v做点积,以求和方式聚合相邻顶点的注意力增强值,并重复多次得到多头注意力图transformer结果。
54.在另外的实施例中,所述时间维度的注意力模块包括核卷积、求和、全局平均池化、全连接层、激活函数和softmax;其中,在所述核卷积和全连接层后应用残差连接。
55.在另外的实施例中,所述驾驶行为分析方法还包括步骤s6:对部分或全部的所述驾驶视频的行为分析结果进行统计分析。通过分析驾驶视频的驾驶行为,尤其关注异常行为、违规行为,获取驾驶员的驾驶时间、驾驶状态和违规情况,该分析结果可为其运营公司、保险公司等提供驾驶员规范驾驶信息,辅助管理。
56.在另外的实施例中,所述统计分析的内容包括驾驶行为、驾驶行为发生的时间段或驾驶行为的占比率中的至少一种。
57.在另外的实施例中,所述卷积神经网络包括faster rcnn、maskr-cnn或yolo。
58.在另外的实施例中,所述骨架检测网络包括cpm、sppe或mspn。
59.实施例2
60.下面通过一个示例对本发明进行具体说明。
61.步骤1,通过抽帧的方式实现将视频信息转换为图像帧,得到网络计算的数据。具体抽帧频率为8hz,也就是,每1s的视频等时间间隔抽取8帧。
62.步骤2,采用faster rcnn作为驾驶员检测网络,检测图像或视频中的驾驶员,输出驾驶员在数据中的边界框(即检测框)信息。该方法速度快、准确率高。
63.步骤3,利用单人骨架姿态检测网络cpm(即骨架检测网络),得到骨架姿态信息,骨架姿态信息包括每一个骨架关节点的属性名和坐标(x,y)。其中,骨架关节点包含左耳、右耳、左眼、右眼、鼻子、嘴、下巴、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左手掌、右手掌、左髋、右髋、左膝、右膝,共20个,编号为0-19。
64.步骤4,将骨架姿态信息编码为张量形式。将骨架关节点编码为3维张量形式,其中包括帧内连接信息和帧间连接信息和骨架关节点的位置信息。帧内连接信息由第一邻接矩阵表示,帧间连接信息由第二邻接矩阵表示,1为存在连接关系,0为不存在连接关系。位置
信息为骨架关节点的二维坐标。同时,为了适应多层图卷积结构,该张量形式的数据还包括一维通道信息。
65.步骤5,本发明所用到的时空图卷积网络模块,其包括时间和空间两个维度的图卷积,同时还加入了图结构的transformer和时间维度上的注意力机制。空图卷积网络模块的网络结构由5层时空图卷积transformer模块、1个全局平均池化层和1个softmax层组成。其中,在每层时空图卷积transformer模块数据依次通过1个时空卷积、1个时间维度的注意力模块和1个时空卷积。
66.步骤5.1,每层时空图卷积transformer模块中,先通过时空卷积,将骨架的张量做空间维度的图卷积,然后与输入进行残差连接,通过批归一化处理后,再进行时间维度的图卷积操作、残差连接和批归一化,最后依次通过空间图transformer、批归一化、前馈网络和批归一化。空间图transformer包含三个步骤,首先由线性投影将特征张量转换为3个不同特征向量q、k、v;然后将q与k做点积得到相邻顶点之间的注意力得分,并经过尺度变换和 softmax;最后与v做点积,以求和方式聚合相邻顶点的注意力增强值,重复多次得到多头注意力图transformer结果。
67.步骤5.2,完成时空卷积后,再将骨架张量特征输入到时间维度的核卷积注意力模块,增强时间维度上的特征信息。
68.步骤5.3,最后再通过时空卷积,完成一层时空卷积模块的特征提取操作。
69.步骤6,具体的,我们采用一个简单的计数统计,对连续时间内相同行为的时间进行合并,对每一类行为预测出现的次数进行计数,可以得到分析视频中出现的驾驶行为、行为发生的时间段和占比率。
70.实施例3
71.第二方面,本发明提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机可执行程序,所述处理器运行所述计算机可执行程序时实现如上所述的基于视频的驾驶行为分析方法。
72.实施例4
73.第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于视频的驾驶行为分析方法。
74.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于视频的驾驶行为分析方法,其特征在于,包括以下步骤:s1、将驾驶视频转为图像帧,以视频流的方式进行分析;s2、通过卷积神经网络检测每个图像帧中的驾驶员,得到对应于驾驶员的检测框;s3、通过骨架检测网络提取所述检测框中驾驶员的骨架姿态信息,所述骨架姿态信息包括每一个骨架关节点的属性名、位置信息以及连接信息,所述连接信息包括帧内连接信息及帧间连接信息,其中,所述帧内连接信息表示身体的骨架关节点的自然连接关系,所述帧间连接信息表示连续图像帧之间相同骨架关节点之间的连接关系;s4、将所述骨架姿态信息编码为张量形式,其中,所述帧内连接信息由第一邻接矩阵表示,所述帧间连接信息由第二邻接矩阵表示;s5、将c时间内张量形式的所述骨架姿态信息输入到时空图卷积网络模块,得到行为分析结果,所述时空图卷积网络模块包括时空图卷积transformer模块、全局平均池化层及softmax层,所述时空图卷积transformer模块包括时空卷积及时间维度的注意力模块;其中,c指的是一个时间滑动窗口,以包含当前时间及其前后时间段的图像信息。2.根据权利要求1所述的驾驶行为分析方法,其特征在于,所述时空卷积至少包括空间图卷积、时间图卷积和空间图transformer三个部分;其中,在每个部分后应用残差连接和批归一化,在时空卷积的最后应用前馈网络和批归一化处理。3.根据权利要求2所述的驾驶行为分析方法,其特征在于,所述空间图transformer包含三个步骤,首先由线性投影将特征张量转换为3个不同特征向量q、k、v;然后将q与k做点积得到相邻顶点之间的注意力得分,并经过尺度变换和softmax;最后与v做点积,以求和方式聚合相邻顶点的注意力增强值,并重复多次得到多头注意力图transformer结果。4.根据权利要求1所述的驾驶行为分析方法,其特征在于,所述时间维度的注意力模块包括核卷积、求和、全局平均池化、全连接层、激活函数和softmax;其中,在所述核卷积和全连接层后应用残差连接。5.根据权利要求1所述的驾驶行为分析方法,其特征在于,所述驾驶行为分析方法还包括步骤s6:对部分或全部的所述驾驶视频的行为分析结果进行统计分析。6.根据权利要求1所述的驾驶行为分析方法,其特征在于,所述统计分析的内容包括驾驶行为、驾驶行为发生的时间段或驾驶行为的占比率中的至少一种。7.根据权利要求1所述的驾驶行为分析方法,其特征在于,所述卷积神经网络包括faster rcnn、mask r-cnn或yolo。8.根据权利要求1所述的驾驶行为分析方法,其特征在于,所述骨架检测网络包括cpm、sppe或mspn。9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行程序,所述处理器运行所述计算机可执行程序时实现权利要求1-8任一项所述的基于视频的驾驶行为分析方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的基于视频的驾驶行为分析方法。

技术总结
本发明公开了一种基于视频的驾驶行为分析方法、电子设备和存储介质,所述方法包括:将驾驶视频转为图像帧,以视频流的方式进行分析;通过卷积神经网络检测每个图像帧中的驾驶员,得到对应于驾驶员的检测框;通过骨架检测网络提取所述检测框中驾驶员的骨架姿态信息,所述骨架姿态信息包括每一个骨架关节点的属性名、位置信息以及连接信息,所述连接信息包括帧内连接信息及帧间连接信息;将所述骨架姿态信息编码为张量形式;将c时间内张量形式的所述骨架姿态信息输入到时空图卷积网络模块,得到行为分析结果。本发明能够对驾驶员的整体行为进行分析,且计算量小,识别速度快,且预测性能明显提升。性能明显提升。性能明显提升。


技术研发人员:段昶 周章玉 朱策
受保护的技术使用者:成都图必优科技有限公司
技术研发日:2022.06.24
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3122.html

最新回复(0)