本发明涉及视频检索,尤其涉及融合属性特征与向量嵌入的检索方法、设备和存储介质。
背景技术:
1、随着科技的不断发展和普及,摄像头已经成为我们生活中不可或缺的一部分。从公共场所到私人领域,摄像头的数量呈指数级增长,这为监控和安全提供了前所未有的便利。然而,这种大规模的监控网络也带来了一个严峻的挑战:监控数据的处理与检索变得异常困难。
2、由于监控数据可能具有不同的格式、分辨率、视角和环境条件,这给数据处理和匹配带来了更大的挑战。比如要从录像中查找某一个人的录像回看,传统的数据处理方法可能采用人工回看的方式,需要人工逐帧或逐段地查找,这需要大量的时间和人力资源。特别是在大规模视频监控系统中,可能需要花费很长时间才能找到目标人物。并且人类在长时间的视频回放中容易疲劳,注意力难以集中,可能会错过目标人物的出现或者重要的细节,这样就可能导致错过重要信息或者错误的识别目标人物。同时人的主观判断可能会受到情绪、疲劳等因素的影响,导致查找结果的不稳定性。
3、尽管目前有一些基于相似性度量的视频检索方法,但仍然存在误检和漏检的问题。特别是在复杂场景下,如光照变化、遮挡、运动模糊等情况下,检索的准确性可能会受到影响。某些情况下,视频检索需要进行跨模态匹配,即将文本查询与视频内容进行匹配。这可能会面临模态不匹配、语义鸿沟等问题,导致检索效果不佳。
技术实现思路
1、本发明的目的是为了解决现有技术中存在的缺点,而提供了融合属性特征与向量嵌入的检索方法,包括以下步骤:
2、s1:监控视频流,定期抽取所述视频流的图片,编码所述图片获得编码图片,并将所述编码图片缓存到消息队列;
3、s2:ai裁图模型返回编码图片id和坐标点位置,所述坐标点位置若有值,则将所述编码图片保存到磁盘;
4、s3:深度学习模型从所述消息队列提取所述编码图片上的信息获得第一人脸特征向量、第一人体特征向量和第一文本向量,并对所述第一人脸特征向量进行归一化处理得到第二人脸特征向量,逻辑斯蒂回归模型根据所述编码图片获取结构化属性特征;
5、s4:所述深度学习模型通过检测所述坐标点位置中的第一坐标点位置,将所述第二人脸特征向量、所述第一人体特征向量和所述第一文本向量根据图片id关联存储到向量库中;
6、s5:所述逻辑斯蒂回归模型通过检测所述坐标点位置的第二坐标点位置,将所述结构化属性特征、第二人脸特征向量和所述第一人体特征向量根据所述图片id关联以实现所述结构化属性特征存储到搜索引擎中;
7、s6:所述深度学习模型根据检索信息提取检索向量,所述检索向量与所述向量库中的数据进行相似度计算,并根据相似度的计算结果进行排序得到检索结果;
8、s7:对所述检索结果进行打点,对连续的点击区域进行合并,用户根据标记的打点击区域进行录像回看,播放对应时间点的前后片段。
9、优选地,在步骤s3中,所述结构化属性特征,包括:
10、所述结构化属性特征包括服装款式、颜色、性别在内的特征。
11、优选地,在步骤s2中,对所述第一人脸特征向量进行归一化处理得到第二人脸特征向量,进一步包括:
12、所述归一化处理的计算过程,如下所示:
13、v=[v1,v2,…,vi],
14、其中v为特征向量,vi表示特征向量中的第i个元素;
15、根据所述特征向量v计算l2范数,
16、
17、其中va表示特征向量中的第a个元素;
18、将所述特征向量v中的每个元素乘以归一化因子,得到归一化后的第二人脸特征向量,其中归一化因子normalizationfactor和第二人脸特征向量normalizationvector的计算公式,如下所示:
19、normalizationfactor=1/||v||2,
20、第二人脸特征向量的计算公式,如下所示:
21、normalizationvector=[v1/||v||2,v2/||v||2,…,vn/||v||2]。
22、优选地,在步骤s4中,所述深度学习模型根据检索信息提取检索向量,进一步包括:
23、所述深度学习模型通过图片检索或跨模态文字检索提取检索向量,如下所述:
24、所述图片检索是深度学习模型根据用户选择的视频裁图或上传的图片文件自动提取所述第一人体特征向量和所述第三人脸特征向量;
25、所述跨模态文字检索是所述深度学习模型根据用户输入的文字向量特征提取第二文本向量。
26、优选地,在步骤s6中,所述检索向量与所述向量库中的数据进行相似度计算,并根据相似度的计算结果进行排序得到检索结果,进一步包括:
27、所述检索向量为第三人脸特征向量时,所述第三人脸特征向量与所述向量库中的数据进行相似度计算,匹配到所述向量库中的第四人脸特征向量和第二人体特征向量,进行相似度计算,系统将根据查询结果中的人体坐标与搜索引擎库中存放的人体坐标进行交并比iou计算关联;
28、所述检索向量为所述第二文本向量时,所述第二文本向量与所述向量库中的所述第一文本向量进行相似度计算并进行排序,根据用户选择的第二属性特征并结合第五人体属性向量进行检索得到检索结果。
29、优选地,所述人脸第三特征向量与所述向量库中的数据进行相似度计算,并根据相似度的计算结果进行排序得到检索结果,进一步包括:
30、所述第三人脸特征向量和所述第四人脸特征向量的余弦相似度计算公式如如下:
31、cosine_similarity(a,b)=(a·b)/(||a||*||b||),
32、其中,a·b表示向量a和向量b的点积,||a||和||b||分别表示向量a和向量b的l2范数。
33、所述第四人脸特征向量利用人体去重模型进行去除重复处理;
34、所述第二人体特征与所述向量库中的所述第一人体特征进行余弦相似度计算,根据计算结果进行排序,并返回匹配结果;
35、根据所述匹配结果关联查询所述向量库中对应的所述第二人脸特征向量,并与用户选择的第五人脸特征向量进行余弦相似度计算,进一步对结果进行排序得到查询结果;
36、根据所述查询结果中的第三人体坐标与搜索引擎库中存放的所述第二人体坐标进行交并比计算关联,并结合所述搜索引擎库中的所述结构化属性特征,与所述图片进行比对。
37、优选地,根据用户选择的第二属性特征并结合第五人体属性向量进行检索得到检索结果,进一步包括:
38、所述第二属性特征与所述搜索引擎库中的所述第二人体特征进行融合得到融合特征;
39、利用交集排序的方法,对所述融合特征进行匹配和排序得到检索结果。
40、优选地,所述步骤s7,进一步包括:
41、对所述检索结果以缩略图的形式显示并进行打点排序,显示视频图片信息,用户通过点击标记的打点区域进行录像回看,播放对应时间点的前后片段,其中,所述视频图片信息包括视频地点、视频时间、人体服装款式、人体服装颜色、性别在内的信息。
42、本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上述中任一项所述的融合人体属性特征与向量嵌入的跨模态检索方法的步骤。
43、本发明还提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述中任一项所述的融合人体属性特征与向量嵌入的跨模态检索方法的步骤。
44、与现有技术相比,本发明的有益效果是:
45、1)本发明通过将人脸和人体的特征相互关联,系统能够更准确地识别和匹配目标,提高了整体的匹配准确性;
46、2)本发明通过人体结构化属性与向量嵌入的集成学习能够更好地捕捉人体目标的多样性和复杂性,提高了对不同场景和环境下人体目标的识别能力,根据人体服装颜色、款式及性别等属性进行二次检索过滤,提高匹配的准确性。
47、3)本发明通过引入人脸人体融合技术、结构化属性特征,结合深度学习模型能够在多摄像头下快速、准确地检索出录像中的人员信息,从而高效稳定地生成对应时间段的录像回看。
1.融合属性特征与向量嵌入的检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的融合属性特征与向量嵌入的检索方法,其特征在于,在步骤s3中,所述结构化属性特征,包括:
3.根据权利要求2所述的融合属性特征与向量嵌入的检索方法,其特征在于,在步骤s3中,对所述第一人脸特征向量进行归一化处理得到第二人脸特征向量,进一步包括:
4.根据权利要求3所述的融合属性特征与向量嵌入的检索方法,其特征在于,在步骤s4中,所述深度学习模型根据检索信息提取检索向量,进一步包括:
5.根据权利要求4所述的融合属性特征与向量嵌入的检索方法,其特征在于,在步骤s6中,所述检索向量与所述向量库中的数据进行相似度计算,并根据相似度的计算结果进行排序得到检索结果,进一步包括:
6.根据权利要求5所述的融合属性特征与向量嵌入的检索方法,其特征在于,所述人脸第三特征向量与所述向量库中的数据进行相似度计算,并根据相似度的计算结果进行排序得到检索结果,进一步包括:
7.根据权利要求6所述的融合属性特征与向量嵌入的检索方法,其特征在于,根据用户选择的第二属性特征并结合第五人体属性向量进行检索得到检索结果,进一步包括:
8.根据权利要求7所述的融合属性特征与向量嵌入的检索方法,其特征在于,所述步骤s7,进一步包括:
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述的融合属性特征与向量嵌入的检索方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至8中任一项所述的融合属性特征与向量嵌入的检索方法的步骤。
