对象检测与跟踪的制作方法

专利2024-04-04  105



1.本披露涉及一种方法,具体涉及一种用于从视频输入检测和跟踪对象的方法。此外,本发明涉及对应的计算设备和计算机程序。


背景技术:

2.智能驾驶辅助系统在现代车辆中的日益普及,同时提出了许多计算机视觉任务,如车道检测、道路分割、对象检测和对象跟踪。这些任务需要快速、高效和鲁棒的方案。


技术实现要素:

3.提供本发明内容是为了以简化的形式介绍在以下具体实施方式中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
4.目的是提供用于从视频输入检测和跟踪对象的设备和方法。该目的是通过独立权利要求的特征来实现的。其它实现方式在从属权利要求、说明书和附图中提供。
5.根据第一方面,一种方法包括:获取对应于视频的多个帧,其中,所述多个帧包括感兴趣的特征;根据所述多个帧形成时空数据卷,其中,所述时空数据卷的两个维度对应于所述多个帧的空间维度,所述时空数据卷的一个维度对应于所述多个帧的时间维度;沿着多个表面对所述时空数据卷进行切片,生成多个时空图像,其中,所述多个时空图像中的每个时空图像对应于沿着所述多个表面中的对应表面的所述时空数据卷;使用神经网络增强所述多个时空图像中的所述感兴趣的特征,生成处理后的多个时空图像。例如,所述方法能够高效地增强感兴趣的特征。由于所述神经网络可以分析时空域中感兴趣的特征,所以所述神经网络的结构可能更简单,计算效率更高。
6.在第一方面的一种实现方式中,所述获取多个帧包括:获取对应于视频的多个输入帧,并对多个输入帧执行特征提取,生成多个帧和多个帧中的感兴趣的特征。例如,所述方法能够使用适当和高效的算法等提取感兴趣的特征,然后使用所述神经网络增强所述感兴趣的特征。
7.在第一方面的另一种实现方式中,增强所述多个时空图像中的所述感兴趣的特征包括以下至少一项:从所述多个时空图像中去除噪声;连接所述多个时空图像中的至少一个几何形状的断开部分;提取所述多个时空图像中的至少一个几何形状;或对所述多个时空图像中的至少一个几何形状进行分类;其中,所述至少一个几何形状对应于所述感兴趣的特征中的一个感兴趣的特征。例如,所述方法能够更高效地增强所述感兴趣的特征,因为所述感兴趣的特征可以对应于所述时空域中更简单的几何形状。
8.在第一方面的另一种实现方式中,所述方法还包括将所述处理后的多个时空图像中的所述增强的感兴趣的特征投影到所述多个输入帧上或所述多个帧上。例如,所述方法能够将所述增强的感兴趣的特征(如车道标记)投影回驾驶辅助应用中的交通图像上。因此,例如,可以向用户可视地示出增强的感兴趣的特征。
9.在第一方面的另一种实现方式中,所述感兴趣的特征对应于交通中的感兴趣的对象。例如,所述方法能增强对应于交通中的感兴趣的对象的感兴趣的特征。
10.在第一方面的另一种实现方式中,所述交通中的感兴趣的对象包括以下至少一项:车道标记;一段道路;或待跟踪的交通中的对象。例如,所述方法能够灵活地增强对应于交通中的感兴趣的对象的各种不同的感兴趣的特征。
11.在第一方面的另一种实现方式中,所述神经网络包括卷积神经网络。例如,所述方法能够高效地增强感兴趣的特征。
12.在第一方面的另一种实现方式中,所述神经网络使用包括合成的感兴趣的特征的合成时空图像来训练。由于所述神经网络可以增强所述时空域中所述感兴趣的特征,因此所述神经网络也可以在所述时空域中训练。在所述时空域中合成真实的训练数据可能比合成交通的真实图像容易。
13.根据第二方面,一种计算机程序包括程序代码,所述程序代码用于当所述计算机程序在计算机上执行时,执行第一方面提供的方法。
14.根据第三方面,一种计算设备用于:获取对应于视频的多个帧,其中,所述多个帧包括感兴趣的特征;根据所述多个帧形成时空数据卷,其中,所述时空数据卷的两个维度对应于所述多个帧的空间维度,所述时空数据卷的一个维度对应于所述多个帧的时间维度;沿着多个表面对所述时空数据卷进行切片,生成多个时空图像,其中,所述多个时空图像中的每个时空图像对应于沿着所述多个表面中的对应表面的所述时空数据卷;使用神经网络增强所述多个时空图像中的所述感兴趣的特征,生成处理后的多个时空图像。例如,所述计算设备可以高效地增强所述感兴趣的特征。由于所述神经网络可以分析时空域中感兴趣的特征,所以所述神经网络的结构可能更简单,计算效率更高。
15.在第三方面的一种实现方式中,所述计算设备还用于通过执行以下步骤获取所述多个帧:获取对应于视频的多个输入帧,并对多个输入帧执行特征提取,生成多个帧和多个帧中的感兴趣的特征。例如,所述计算设备能够使用适当和高效的算法等提取感兴趣的特征,然后使用所述神经网络增强所述感兴趣的特征。
16.在第三方面的另一种实现方式中,所述计算设备还用于通过执行以下至少一项来增强所述多个时空图像中的所述感兴趣的特征:从所述多个时空图像中去除噪声;连接所述多个时空图像中的至少一个几何形状的断开部分;提取所述多个时空图像中的至少一个几何形状;或对所述多个时空图像中的至少一个几何形状进行分类;其中,所述至少一个几何形状对应于所述感兴趣的特征中的一个感兴趣的特征。例如,所述计算设备可以更高效地增强所述感兴趣的特征,因为所述感兴趣的特征可以对应于所述时空域中更简单的几何形状。
17.在第三方面的另一种实现方式中,所述计算设备还用于:将所述处理后的多个时空图像中的所述增强的感兴趣的特征投射到所述多个输入帧上或所述多个帧上。例如,所述计算设备可以将所述增强的感兴趣的特征(如车道标记)投射回驾驶辅助应用中的交通图像上。因此,例如,可以向用户可视地示出增强的感兴趣的特征。
18.在第三方面的另一种实现方式中,所述感兴趣的特征对应于交通中的感兴趣的对象。例如,所述计算设备可以增强对应于交通中的感兴趣的对象的感兴趣的特征。
19.在第三方面的另一种实现方式中,所述交通中的感兴趣的对象包括以下至少一
项:车道标记;一段道路;或待跟踪的交通中的对象。例如,所述计算设备可以灵活地增强对应于交通中的感兴趣的对象的各种不同的感兴趣的特征。
20.在第三方面的另一种实现方式中,所述神经网络包括卷积神经网络。例如,所述计算设备可以高效地增强所述感兴趣的特征。
21.在第三方面的另一种实现方式中,所述神经网络已经使用包括合成的感兴趣的特征的合成时空图像来训练。由于所述神经网络可以增强所述时空域中所述感兴趣的特征,因此所述神经网络也可以在所述时空域中训练。在所述时空域中合成真实的训练数据可能比合成交通的真实图像容易。
22.根据第四方面,车辆包括第三方面提供的所述计算设备。
23.许多伴随的特征通过参考以下结合附图考虑的详细说明变得更好理解。
附图说明
24.根据附图阅读的以下详细描述将更好地理解本描述,其中:
25.图1示出一个实施例提供的方法的流程图;
26.图2示出了一个实施例提供的计算设备的示意图;
27.图3示出了一个实施例提供的数据流的示意图;
28.图4示出了一个实施例提供的主数据流的示意图;
29.图5示出了一个实施例提供的对时空数据卷进行切片的示意图;
30.图6示出了一个实施例提供的数据准备模块的示意图;
31.图7示出了一个实施例提供的神经网络训练数据的示意图;
32.图8示出了一个实施例提供的车道检测的示意图;
33.图9示出了一个实施例提供的道路分割的示意图;
34.图10示出了一个实施例提供的对象跟踪的示意图。
35.在附图中,相同的附图标记用于表示相同的部件。
具体实施方式
36.下面结合附图提供的详细描述旨在作为对实施例的描述,并不旨在表示实施例可以被构造或使用的唯一形式。但是,相同或等效的功能和结构可以通过不同的实施例实现。
37.图1示出了一个实施例提供的方法100的流程图。
38.根据一个实施例,方法100包括获取(101)对应于视频的多个帧,其中,多个帧包括感兴趣的特征。
39.例如,多个帧可以包括多个灰度图像。灰度图像的每个像素可以对应于一个数值,其中,该数值表示该像素在白色和黑色之间的标度上的颜色。感兴趣的特征可以对应于这种灰度图像的更浅色区域。例如,感兴趣的特征可以通过对从摄像头获取的图像执行特征提取来获取。或者,多个帧可以包括从摄像头获取的图像,而不需要单独的特征提取。这样的图像可以包括颜色信息(例如以rgb值的形式),而不是灰度信息。
40.多个帧中的每个帧可以对应于不同的时刻。例如,多个帧可以对应于视频中的连续帧。
41.方法100还可以包括根据多个帧形成(102)时空数据卷,其中,时空数据卷的两个
维度对应于多个帧的空间维度,时空数据卷的一个维度对应于多个帧的时间维度。
42.例如,时空数据卷可以通过在时间维度上堆叠多个帧来形成。
43.时空数据卷的两个维度可以对应于视频的空间维度,时空数据卷的一个维度对应于视频的时间维度。
44.时空数据卷也可以称为视频卷、视频数据卷等。
45.方法100还可以包括沿着多个表面对时空数据卷进行切片(103),生成多个时空图像。多个时空图像中的每个时空图像可以对应于沿着多个表面中的对应表面的时空数据卷。
46.根据一个实施例,多个表面中的每个表面是弯曲的。因此,这种表面的空间位置中的一个或两个空间位置可以作为时间维度的函数而改变。因此,这种表面的空间位置中的至少一个空间位置相对于时间维度可以是非恒定的。弯曲表面可以具有非零曲率。
47.时空图像也可以被称为时间切片(time slice,ts)图像、广义时间切片(generalised time slice,gts)图像等。
48.由于多个时空图像中的每个时空图像可以对应于沿着多个表面中的对应表面的时空数据卷,因此每个时空图像可以包括沿对应表面的时空数据卷的值,例如灰度值或rgb值。
49.方法100还可以包括使用神经网络增强(104)多个时空图像中的感兴趣的特征,生成处理后的多个时空图像。
50.例如,增强可以从多个时空图像中去除噪声和/或连接感兴趣的特征的断开部分。
51.当在计算机上执行时,方法100的至少一些操作可以由计算机程序执行。
52.图2示出了一个实施例提供的计算设备200的示意图。
53.根据一个实施例,计算设备200用于获取对应于视频的多个帧,其中,多个帧包括感兴趣的特征。
54.计算设备200还可以用于根据多个帧形成时空数据卷,其中,时空数据卷的两个维度对应于多个帧的空间维度,时空数据卷的一个维度对应于多个帧的时间维度。
55.计算设备200还可以用于沿着多个表面对时空数据卷进行切片,生成多个时空图像。多个时空图像中的每个时空图像可以对应于沿着多个表面中的对应表面的时空数据卷。
56.计算设备200还可以使用神经网络增强多个时空图像中的感兴趣的特征,生成处理后的多个时空图像。
57.计算设备200可以包括处理器201。计算设备200还可以包括存储器202。
58.在一些实施例中,计算设备200的至少一些部分可以实现为芯片上系统(system on a chip,soc)。例如,处理器201、存储器202和/或计算设备200的其它部件可以使用现场可编程门阵列(field-programmable gate array,fpga)实现。
59.计算设备200的部件,例如处理器201和存储器202,可以不是分立部件。例如,如果计算设备200使用soc实现,则部件可以对应于soc的不同单元。
60.例如,处理器201可以包括各种处理设备中的一个或多个,例如协处理器、微处理器、控制器、数字信号处理器(digital signal processor,dsp)、具有或不具有伴随dsp的处理电路、或包括专用集成电路(application specific integrated circuit,asic)等集
成电路的各种其它处理设备、现场可编程门阵列(field programmable gate array,fpga)、微控制器单元(microcontroller unit,mcu)、硬件加速器、专用计算机芯片等。
61.存储器202可以用于存储计算机程序等。存储器202可以包括一个或多个易失性存储器设备、一个或多个非易失性存储器设备,和/或一个或多个易失性存储器设备和非易失性存储器设备的组合。例如,存储器202可以实施为磁存储设备(例如硬盘驱动器、软盘、磁带等)、光磁存储设备和半导体存储器(例如掩模rom、可编程rom(programmable rom,prom)、可擦除prom(erasable prom,eprom)、闪存rom、随机存取存储器(random access memory,ram)等)。
62.本文描述的功能可以通过计算设备200的各种部件实现。例如,存储器202可以包括用于执行本文公开的任何功能的程序代码,处理器201可以用于根据存储器202中包括的程序代码执行功能。
63.当计算设备200用于实现一些功能时,计算设备200的一些部件(例如一个或多个处理器201和/或存储器202)可以用于实现该功能。此外,当一个或多个处理器201用于实现一些功能时,该功能可以使用包括在存储器202中的程序代码等来实现。例如,如果计算设备200用于执行操作,则一个或多个存储器202和计算机程序代码可以用于与一个或多个处理器201一起使计算设备200执行该操作。
64.根据实施例,车辆包括计算设备200。例如,计算设备200可以在车辆中执行智能驾驶辅助系统任务。例如,车辆可以包括一个或多个摄像头,计算设备200可以从一个或多个摄像头获取视频。在另一个实施例中,计算设备200的功能可以实现为离线处理。因此,计算设备200可以不连接到车辆。
65.图3示出了一个实施例提供的数据流的示意图。
66.方法100还可以包括获取对应于视频的多个输入帧,并对多个输入帧执行特征提取,生成多个帧和多个帧中的感兴趣的特征。例如,多个输入帧可以从摄像头获取。
67.例如,在图3的实施例中,可以将多个输入帧301馈入预处理模块303。例如,多个输入帧301可以对应于从车辆的一个或多个摄像头获取的图像。
68.预处理模块303可以对多个输入帧301进行预处理,生成多个帧。
69.预处理模块303可以是可选的。因此,在一些实施例中,多个帧可以包括多个输入帧301。
70.多个帧可以被馈送到主处理模块304中。主处理模块304可以生成输出305。输出305可以包括处理后的多个时空图像。
71.预处理模块303和主处理模块304可以称为主数据流302。例如,主数据流302可以由计算设备200执行。计算设备200可以实施在车辆中,并且当车辆在交通中运行时,计算设备200可以执行主数据流302。
72.在数据准备模块310中,训练数据可以由数据生成模块306生成。生成的训练数据可用于神经网络模块307中的神经网络训练308。可选地,还可以从预处理模块303获取其它训练数据,例如与真实图像对应的训练数据。训练后的神经网络可以存储到模型存储器309中。然后,训练后的神经网络模型可以部署到车辆上,用于驾驶辅助应用。
73.数据准备模块310可以由计算设备200或任何其它计算装置实现。数据准备模块310的功能可以例如在计算设备200用于交通之前执行。来自模型存储器309的训练神经网
络可用于驾驶辅助应用中的主数据流302。
74.图4示出了一个实施例提供的主数据流302的示意图。
75.预处理模块303可以对多个输入帧301进行预处理,生成多个帧401。例如,输入帧310可以对应于车辆的正面视图(frontal view,fv)或任何其它视图的视频。预处理303可以提取相关数据,并获取具有感兴趣的对象的初始检测的图像。在车道检测系统的情况下,例如,预处理模块303可以使用车道检测器来获取具有较亮像素的灰度图像,较亮像素表示该像素属于道路车道标记的可能性较高。
76.在主处理模块304中,从预处理模块303获取的多个帧401可以合并为时空数据卷。
77.在主处理模块304中,时空数据卷可以沿着多个表面切片,生成多个时空图像402。多个时空图像402中的每个时空图像可以对应于沿着多个弯曲表面中的对应表面的时空数据卷。
78.可以使用神经网络增强多个时空图像402中的感兴趣的特征。这可以生成处理后的多个时空图像403。
79.根据一个实施例,增强(104)多个时空图像402中感兴趣的特征包括从多个时空图像402中去除噪声。
80.或者或另外,增强(104)多个时空图像402中的感兴趣的特征可以包括连接多个时空图像402中至少一个几何形状的断开部分。
81.或者或另外,增强(104)多个时空图像402中的感兴趣的特征可以包括提取多个时空图像402中的至少一个几何形状。
82.或者或另外,增强(104)多个时空图像402中感兴趣的特征可以包括对多个时空图像402中的至少一个几何形状进行分类。
83.至少一个几何形状可以对应于感兴趣的特征中的一个感兴趣的特征。例如,多个时空图像402中的线/曲线可以对应于车道标记。例如,其它几何形状可以对应于待跟踪的对象(如汽车、行人或自行车),或要分割的部分(如道路或天空)。
84.在处理后的多个时空图像403中的增强的感兴趣的特征可以投射回多个输入帧301上,生成多个输出帧404。例如,如果感兴趣的特征对应于交通中的车道标记,则增强的车道标记可以投射到多个输入帧301上,以便突出显示多个输入帧301中的车道标记。多个输出帧404可以对应于主数据流302的输出305。
85.根据一个实施例,方法100还包括将处理后的多个时空图像中的增强后的感兴趣的特征投射到多个输入帧上或多个帧上。
86.图5示出了一个实施例提供的对时空数据卷501进行切片的示意图。
87.在图5的实施例中,示出了三个弯曲表面502,时空数据卷501沿着这三个弯曲表面502切片。在图5的实施例中,弯曲表面502的y位置作为时间维度的函数而改变,而x位置保持在原始位置。因此,当时空数据卷501沿着弯曲表面502切片时,多个帧401中每个帧的一行像素被复制到对应的时空图像。由于弯曲表面502的y位置改变,所以,对于多个帧401中的不同帧,像素行可以不同。
88.在其它实施例中,表面502的y位置可以是恒定的,而x位置作为时间维度的函数而变化。在其它实施例中,表面502的x位置和y位置可以作为时间维度的函数而变化。在其它实施例中,表面502的x位置和y位置可以作为时间维度的函数是恒定的。
89.表面502的形状可以根据应用、待跟踪的对象和其它可用信息来调整。
90.时空图像402包括时空数据卷501的时空切片。因此,时空图像402包括组合了空间维度和时间维度的二维图像。图5的实施例示了从对应于已由车道检测器预处理的视频的时空数据卷501中提取的此类切片的三个示例。
91.多个时空图像402可以由神经网络处理。该处理可以包括清洁和数据提取等。在车道检测的情况下,神经网络可以将具有可能具有缺失部分的曲线的噪声灰阶时空图像402作为输入。然后,神经网络可以输出具有干净的连接线的处理后的多个时空图像403。在图5的实施例中,示出了由神经网络增强之前的时空图像402和由神经网络增强之后的处理后的时空图像403的示例。然后,处理后的多个时空图像403可以组合到原始结构的时空体积中。
92.通过从时空数据卷501获取切片,多个帧中的许多帧的信息可以被组合成单个时空图像402。因此,场景的更广泛的时间上下文可以在单个镜头中使用。
93.此外,通过使用时空数据卷501的切片,可以减少遮挡的影响。如果对象在一个帧中被遮挡,而在另一个帧中再次可见,则该对象可以在时空图像402中具有足迹,遮挡的影响可以通过神经网络减少。因此,方法100和/或计算设备200对于处理遮挡具有鲁棒性。此外,这种鲁棒性可以微调,以处理不同类型和时间长度的遮挡。
94.图6示出了一个实施例提供的数据准备模块310的示意图。
95.合成的时空图像可以从数据生成器模块306发送到神经网络训练模块307。在神经网络训练模块307中,可以训练卷积神经网络等神经网络来增强时空图像402。
96.根据一个实施例,神经网络602包括卷积神经网络(convolutional neural network,cnn)。或者,神经网络可以包括任何其它类型的神经网络。
97.例如,cnn可以实现为沙漏网络,编码器后跟解码器,具有可选的生成对抗网络(generative adversarial network,gan)部件。gan部件可用于通过真实图像601更好地近似合成数据。神经网络训练模块307的输出是训练后的神经网络602。神经网络602也可以称为模型、神经网络模型等。训练后的神经网络602可用于主处理模块304。
98.神经网络602可以接受噪声灰度图像作为输入,并通过链接断开的线和去除噪声等来学习增强图像。如果合成图像不能完全模拟真实输入,并且有一定数量的真实图像可用,则可以使用gan部件,以便更好地进行学习。
99.神经网络的一个缺点是需要一个大的注释数据集。为了克服这一障碍,神经网络602可以用于处理时空图像。因此,训练数据可以直接在时空域中合成,而不是使用真实世界的训练数据。这不需要合成逼真的交通图像来进行训练,合成逼真的交通图像来进行训练需要大量的计算资源。通过在时空域中使用非自然图像,任何类型的行为都可以进行数学建模(如果需要,可以通过对抗网络部分微调)。例如,可以通过从训练数据中的时空图像中去除随机斑块来建模遮挡。类似地,可以通过在时空训练图像中添加不同类型的噪声来建模虚检和漏检。
100.用于网络训练的数据集可以通过数学函数(例如多项式和/或振荡函数)的混合完全合成。
101.例如,训练数据可以包括时空域中的非真实灰度图像,这对于神经网络602来说可以更容易分析。因此,在不影响性能的情况下,可以使用更简单、更浅的网络结构,从而节省
计算资源。
102.根据一个实施例,神经网络602使用包括合成的感兴趣的特征的合成时空图像来训练。
103.方法100和计算设备200可用于各种标记和跟踪任务,并且可能不需要像初始检测或手动数据集标记那样的人-系统交互。
104.方法100和计算设备200可以不需要假定关于多个帧401的任何其它知识,例如摄像头校准或里程测量信息。此外,可以不需要对待检测/跟踪的对象的数量或其属性(例如在车道检测器的情况下,为车道的数量或其形状)作出假设。
105.由于神经网络602可以在时空域中训练,因此所得到的神经网络模型可以是精简和高效的。因此,可以在短时间内处理大量数据。
106.方法100和计算设备200可以具有不取决于视频长度的恒定处理时间。通过使用时空图像402,方法100和计算设备200可以同时考虑更宽的时间上下文,因此视频时间长度对应于时空图像高度。因此,长视频和短视频的区别是时空图像大小,这可能不会对计算性能产生很大影响。
107.方法100和计算设备200可以用降低的成本来实现。方法100和计算设备200能够自动和人类无监督地从视频序列中提取数据。此外,神经网络602可以通过无监督的方式训练。
108.图7示出了根据实施例的神经网络训练数据的示意图。
109.在图7的实施例中,示出了地面真实时空图像701和对应的时空图像702。如图7所示,噪声已经被添加到地面真实图像701中,并且感兴趣的特征的一些部分已经被断开以获取时空图像702。
110.当时空图像702被馈送到神经网络602时,神经网络602可以被训练以输出类似于对应的地面真实时空图像701的处理后的时空图像。
111.地面真实时空图像701可以通过具有模拟真实时空图像的不同统计参数的数学模拟生成。例如,地面真实时空图像701可以通过组合各种正弦函数和多项式函数来生成。然后,可以添加不同类型的噪声(例如检测噪声)来模拟。此外,可以添加随机额外的线,并且可以从地面真实图像701中擦除随机斑块,以获取真实时空图像702用于进行训练。
112.在神经网络602的训练期间,可以调整神经网络602的参数,使得当训练数据集中的时空图像702被馈送到神经网络602时,神经网络602输出类似于对应的地面真实时空图像701的处理后的时空图像。调整可以以迭代的方式重复,直到满足预配置的条件等。例如,预配置的条件可以包括将神经网络602的输出与地面真实进行比较,并且当量化输出与地面真实701之间的差值的参数低于预配置的阈值时,满足预配置的条件。
113.图8示出了一个实施例提供的车道检测的示意图。
114.道路车道标记的定位是自主导航等的必要组成部分。应准确检测车道,不应将车道与箭头和其它道路标记混淆,即使线本身在图像中不可见,也应对车道进行预测。
115.方法100和/或计算设备200可以应用于车道检测。多个帧401可以包括从具有初始车道检测的车辆的前置摄像头获取的图像。例如,初始车道检测可以由预处理模块303获取。本文公开的时空数据卷501的切片过程可以应用于多个帧以获取时空表示。cnn等神经网络可以处理时空图像402,以增强车道标记,生成处理后的多个时空图像403。处理后的多
个时空图像403可以投射回多个帧401上,生成多个输出帧305,其中,车道标记在多个输出帧305中突出显示。
116.在一些实施例中,后处理算法可以将处理后的时空图像403中的一个时空图像作为输入,并为每个车道标记分配标签id。然后,标签可以传播到时空图像的其余部分,以便每个车道标记的id在时空图像上保持一致。
117.图8的实施例示出了方法100和计算设备200的执行的两个示例。在图8(a)中,初始车道检测包含许多错误。例如,道路箭头与实际车道标记混淆。然后,时空图像402可以通过cnn增强,生成处理后的时空图像403。如图8所示,增强了感兴趣的特征,即对应于车道标记的线。感兴趣的特征的断开部分将被重新连接,且噪声被去除。输出帧305中示出了最终正确的车道检测结果。
118.图8(b)示出了另一个示例,其中,车道标记被卡车遮挡而缺失。在时空域的神经网络增强之后,车道标记即使在卡车后面,也会被重新检测。
119.图9示出了一个实施例提供的道路分割的示意图。
120.例如,道路分割任务是智能驾驶辅助系统中的一项重要任务。在这个任务中,输入可以是交通的图像或视频,输出可以是图像或视频到道路/非道路像素的二进制分类。每像素注释是一项非常耗时的任务,每帧可能需要几分钟的时间。方法100和计算设备200能够通过减少的假阳性和假阴性检测数量来实现时间一致的道路分割掩蔽。
121.道路分割算法可以应用于预处理303中的多个输入帧301中的每个输入帧,生成多个帧401。多个帧401可以形成为本文公开的时空数据卷501。时空数据卷501可以被切片成如本文所公开的时空图像402。时空图像402可以被馈送到cnn等神经网络602中,该神经网络可以执行去噪以填充由于道路上的障碍物堵塞而产生的洞,清洁小的不准确性并校正道路边界。与车道检测应用类似,神经网络602可以用可以数学生成的完全合成数据来训练。处理后的时空图像403的信息可以投射回多个输入帧301上,以创建干净一致的输出。
122.道路分割过程可以自动执行,可能不需要对数据进行任何人工标记。通过利用时空域,可以生成干净的输出,减少单帧分析等中可能发生的不准确。
123.图10示出了一个实施例提供的对象跟踪的示意图。
124.对象跟踪是方法100和/或计算设备200的另一种可能的应用。对于该任务,语义分割神经网络可以应用于预处理等中的视频序列的每一帧,生成多个帧401。这种逐帧预测容易出现错误和不准确。
125.可以如本文所公开的那样对时空数据卷501进行切片,生成时空图像402。时空图像402可以被馈送到神经网络602中,例如cnn,生成处理后的时空图像403。如图10的实施例所示,处理后的时空图像403包括跟踪对象随时间的干净的“路径”。轨迹可以投射回图像平面,获取对象随时间的一致轨迹。此过程可以应用于任何需要跟踪的语义类,如汽车、自行车、行人等。
126.尽管已经以结构特征和/或方法动作的特定语言描述了本主题的一部分,但应理解,所附权利要求书中限定的主题不必局限于上文所描述的具体特征或动作。相反,以上描述的具体特征和行为被公开为实现权利要求的实施例,其它等效特征和行为旨在在权利要求的范围内。
127.本文描述的功能可以至少部分地由一个或多个计算机程序部件执行。或者或另
外,本文描述的功能可以至少部分地由一个或多个硬件逻辑部件执行。例如(但不限于此),可使用的硬件逻辑部件的说明性类型包括现场可编程门阵列(field-programmable gate array,fpga)、专用集成电路(application-specific integrated circuit,asic)、专用标准产品(application-specific standard product,assp)、芯片上系统(system-on-a-chip system,soc)、复杂可编程逻辑器件(complex programmable logic device,cpld)、图形处理单元(graphics processing unit,gpu)。
128.应理解,上面描述的益处和优点可以涉及一个实施例,也可以涉及几个实施例。这些实施例不局限于那些解决任何或所有所述问题的实施例,或者那些具有任何或所有所述益处和优点的实施例。还将理解,对“一个”项目的引用可以指这些项目中的一个或多个的引用。术语“和/或”可用于指示其连接的一个或多个情况可能发生。可能会发生两个或更多个连接的情况,或者可能仅发生其中一个连接的情况。
129.本文所描述方法的操作可以按任何适当的顺序执行,或在适当的情况下同时执行。另外,在不偏离本文所描述的主题的目标和范围的情况下,可以从任何方法中删除单个框。以上描述的任何实施例的方面可以与所描述的任何其它实施例的方面结合,进而形成其它实施例,这不会失去所寻求的效果。
130.本文中使用术语“包括”,是指包括所标识的方法、框或元素,但这些框或元素不包括排他性列表,并且方法或装置可以包含其它框或元素。
131.应理解,上述描述仅作为示例给出,本领域技术人员可以进行各种修改。上述说明书、实施例和数据提供了示例性实施例的结构和使用的完整描述。尽管上面已经以一定程度的特殊性或参考一个或多个单独的实施例描述了各种实施例,但本领域技术人员可以在不偏离本说明书的精神或范围的情况下对所公开的实施例进行许多修改。

技术特征:
1.一种方法(100),其特征在于,包括:获取(101)对应于视频的多个帧,其中,所述多个帧包括感兴趣的特征;根据所述多个帧形成(102)时空数据卷,其中,所述时空数据卷的两个维度对应于所述多个帧的空间维度,所述时空数据卷的一个维度对应于所述多个帧的时间维度;沿着多个表面对所述时空数据卷进行切片(103),生成多个时空图像,其中,所述多个时空图像中的每个时空图像对应于沿着所述多个表面中的对应表面的所述时空数据卷;使用神经网络增强(104)所述多个时空图像中的所述感兴趣的特征,生成处理后的多个时空图像。2.根据权利要求1所述的方法(100),其特征在于,所述获取多个帧包括:获取对应于所述视频的多个输入帧;对所述多个输入帧执行特征提取,生成所述多个帧和所述多个帧中的所述感兴趣的特征。3.根据权利要求1或2所述的方法(100),其特征在于,所述增强所述多个时空图像中的所述感兴趣的特征包括以下至少一项:从所述多个时空图像中去除噪声;连接所述多个时空图像中的至少一个几何形状的断开部分;提取所述多个时空图像中的至少一个几何形状;或对所述多个时空图像中的至少一个几何形状进行分类;其中,所述至少一个几何形状对应于所述感兴趣的特征中的一个感兴趣的特征。4.根据上述权利要求中任一项所述的方法(100),其特征在于,还包括:将所述处理后的多个时空图像中的所述增强后的感兴趣的特征投射到所述多个输入帧上或所述多个帧上。5.根据上述权利要求中任一项所述的方法(100),其特征在于,所述感兴趣的特征对应于交通中感兴趣的对象。6.根据权利要求5所述的方法(100),其特征在于,所述交通中感兴趣的对象包括以下中的至少一个:车道标记;一段道路;或待跟踪的交通中的对象。7.根据上述权利要求中任一项所述的方法(100),其特征在于,所述神经网络包括卷积神经网络。8.根据上述权利要求中任一项所述的方法(100),其特征在于,所述神经网络使用包括合成的感兴趣的特征的合成时空图像来训练。9.一种计算机程序,其特征在于,包括程序代码,所述程序代码用于当所述计算机程序在计算机上执行时,执行根据上述权利要求中任一项所述的方法。10.一种计算设备(200),其特征在于,用于:获取对应于视频的多个帧(401),其中,所述多个帧包括感兴趣的特征;根据所述多个帧形成时空数据卷(501),其中,所述时空数据卷的两个维度对应于所述多个帧的空间维度,所述时空数据卷的一个维度对应于所述多个帧的时间维度;
沿着多个表面(502)对所述时空数据卷进行切片,生成多个时空图像(402),其中,所述多个时空图像中的每个时空图像对应于沿着所述多个表面中的对应表面的所述时空数据卷;使用神经网络(602)增强所述多个时空图像中的所述感兴趣的特征,生成处理后的多个时空图像(403)。11.根据权利要求10所述的计算设备(200),其特征在于,还用于通过执行以下步骤获取所述多个帧:获取对应于所述视频的多个输入帧(301);对所述多个输入帧执行特征提取,生成所述多个帧和所述多个帧中的所述感兴趣的特征。12.根据权利要求10或11所述的计算设备(200),其特征在于,还用于通过执行以下至少一项来增强所述多个时空图像中的所述感兴趣的特征:从所述多个时空图像中去除噪声;或连接所述多个时空图像中的至少一个几何形状的断开部分;提取所述多个时空图像中的至少一个几何形状;或对所述多个时空图像中的至少一个几何形状进行分类;其中,所述至少一个几何形状对应于所述感兴趣的特征中的一个感兴趣的特征。13.根据权利要求10至12中任一项所述的计算设备(200),其特征在于,还用于:将所述处理后的多个时空图像中的所述增强后的感兴趣的特征投射到所述多个输入帧上或所述多个帧上。14.根据权利要求10至13中任一项所述的计算设备(200),其特征在于,所述感兴趣的特征对应于交通中感兴趣的对象。15.根据权利要求14所述的计算设备(200),其特征在于,所述交通中感兴趣的对象包括以下中的至少一个:车道标记;一段道路;或待跟踪的交通中的对象。16.根据权利要求10至15中任一项所述的计算设备(200),其特征在于,所述神经网络包括卷积神经网络。17.根据权利要求10至16中任一项所述的计算设备(200),其特征在于,所述神经网络已经使用包括合成的感兴趣的特征的合成时空图像进行训练。18.一种车辆,其特征在于,包括根据权利要求10至17中任一项所述的计算设备。

技术总结
公开了一种用于从视频输入检测和跟踪对象的方法和计算设备。例如,所述方法和计算设备可用于跟踪交通中的车道标记等感兴趣的对象。对应于视频的多个帧可以通过神经网络在时空域中分析。所述神经网络可以使用所述时空域中合成的数据来训练。中合成的数据来训练。中合成的数据来训练。


技术研发人员:达里亚
受保护的技术使用者:华为技术有限公司
技术研发日:2020.09.22
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-7559.html

最新回复(0)