视频面审辅助方法、装置、设备及存储介质与流程

专利2025-01-09 77

1.本发明涉及人工智能技术领域，尤其涉及一种视频面审辅助方法、装置、设备及存储介质。

背景技术：

2.视频面审是指通过视频方式和人工方式对用户进行审核，需要审批人员结合自身的面审经验和用户提供的材料，提出面审问题，并重点关注用户在回答问题时，用户是否存在异常行为，从而判断用户是否存在说谎和欺诈。
3.由于各个审批人员对异常行为的标准不一致，导致部分异常行为得不到足够重视，其中隐藏的欺诈风险巨大，同时由于审批人员的水平参差不齐，并且在长时间工作情况下，审批人员容易放松注意力，导致遗漏用户的异常表现，欺诈风险难以被发现。

技术实现要素：

4.本发明提供了一种视频面审辅助方法、装置、设备及存储介质，用于提高视频面审中对欺诈行为的识别准确度。
5.本发明第一方面提供了一种视频面审辅助方法，包括：当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于所述音视频数据进行音频检测；若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时对所述目标人员进行多种动作的识别，所述多种动作包括目光动作、头部动作和手部动作；若所述目光动作符合预设目光动作、所述头部动作符合预设头部动作或所述手部动作对所述目标人员的脸部形成遮挡，则确定所述目标人员存在面审欺诈行为，其中，所述预设目光动作包括目光慢瞟、目光快瞟和目光抖动，所述预设头部动作包括头部快速转动、头部向左转动和头部向右转动；生成所述面审欺诈行为对应的提醒信息，并将所述提醒信息发送至面审提醒终端。
6.在一种可行的实施方式中，所述若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时对所述目标人员进行多种动作的识别，所述多种动作包括目光动作、头部动作和手部动作，包括：若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时获取所述目标人员的人脸视频；根据所述人脸视频进行目光动作识别，得到目光动作识别结果；根据所述人脸视频进行头部动作识别，得到头部动作识别结果；根据所述人脸视频进行手部动作识别，得到手部动作识别结果。
7.在一种可行的实施方式中，所述根据所述人脸视频进行目光动作识别，得到目光动作识别结果，包括：将所述目标人员在所述人脸视频的每帧视频中的目光落点角度值进行平面直角坐标系映射，并将所述每帧视频中的目光落点角度值对应的目光坐标点进行连接，生成所述目标人员的目光动作线段，所述目光坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示目光落点角度值；调用预置的视线点检测模型对所述目光动作线段进行模板匹配；若所述目光动作线段中的任一线段和预设目光动作曲线模板的匹配距离大于
或等于预设目光动作匹配距离，则确定所述目标人员的目光动作符合预设目光动作，所述预设目光动作包括目光慢瞟、目光快瞟和目光抖动；若所述目光动作线段中的每一线段和所述预设目光动作曲线模板的匹配距离小于所述预设目光动作匹配距离，则确定所述目标人员的目光动作未符合所述预设目光动作。
8.在一种可行的实施方式中，所述根据所述人脸视频进行头部动作识别，得到头部动作识别结果，包括：将所述目标人员在所述人脸视频的每帧视频中的头部姿态角度值进行平面直角坐标系映射，并将所述每帧视频中的头部姿态角度值对应的头部姿态坐标点进行连接，生成所述目标人员的头部动作线段，所述头部姿态坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示头部姿态角度值；通过预置的头部姿态检测模型对所述头部动作线段进行模板匹配；若所述头部动作线段中的任一线段和预设头部动作曲线模板的匹配距离大于或等于预设头部动作匹配距离，则确定所述目标人员的头部动作符合预设头部动作，所述预设头部动作包括头部快速转动、头部向左转动和头部向右转动；若所述头部动作线段中的每一线段和所述预设头部动作曲线模板的匹配距离小于所述预设头部动作匹配距离，则确定所述目标人员的头部动作未符合预设头部动作。
9.在一种可行的实施方式中，所述根据所述人脸视频进行手部动作识别，得到手部动作识别结果，包括：根据所述人脸视频生成所述目标人员的人脸区域位置框；对所述人脸视频进行手部检测；若所述人脸视频中存在手部，则生成所述手部对应的手部位置框；计算所述人脸区域位置框和所述手部位置框之间的交集值，所述交集值用于指示所述人脸区域位置框和所述手部位置框之间重叠区域的面积占所述人脸区域位置框和所述手部位置框的总面积的比值；若所述交集值大于或等于预设值，则确定所述目标人员的手部动作对所述目标人员的脸部形成遮挡；若所述交集值小于预设值，则确定所述目标人员的手部动作对所述目标人员的脸部未形成遮挡。
10.在一种可行的实施方式中，所述当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于所述音视频数据进行音频检测，包括：当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据；将所述音视频数据中的音频数据进行提取，得到音频数据；对所述音频数据进行声纹特征提取，得到声纹特征序列；若所述声纹特征序列与预置的审批人员声纹特征序列匹配，则确定所述音视频数据中存在所述审批人员的音频；若所述声纹特征序列与预置的审批人员声纹特征序列未匹配，则确定所述音视频数据中未存在所述审批人员的音频。
11.在一种可行的实施方式中，在所述当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于所述音视频数据进行音频检测之后，在所述生成所述面审欺诈行为对应的提醒信息，并将所述提醒信息发送至面审提醒终端之前，还包括：若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时获取所述目标人员的人脸视频；根据所述人脸视频对所述目标人员的耳部进行颜色检测；若所述耳部的颜色符合预设颜色，则确定所述目标人员存在面审欺诈行为。
12.本发明第二方面提供了一种视频面审辅助装置，包括：音频检测模块，用于当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于所述音视频数据进行音频检测；动作识别模块，用于若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时对所述目标人员进行多种动作的识别，所述多种动作包括
目光动作、头部动作和手部动作；第一确定模块，用于若所述目光动作符合预设目光动作、所述头部动作符合预设头部动作或所述手部动作对所述目标人员的脸部形成遮挡，则确定所述目标人员存在面审欺诈行为，其中，所述预设目光动作包括目光慢瞟、目光快瞟和目光抖动，所述预设头部动作包括头部快速转动、头部向左转动和头部向右转动；信息发送模块，用于生成所述面审欺诈行为对应的提醒信息，并将所述提醒信息发送至面审提醒终端。
13.在一种可行的实施方式中，所述动作识别模块包括：获取单元，用于若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时获取所述目标人员的人脸视频；目光动作识别单元，用于根据所述人脸视频进行目光动作识别，得到目光动作识别结果；头部动作识别单元，用于根据所述人脸视频进行头部动作识别，得到头部动作识别结果；手部动作识别单元，用于根据所述人脸视频进行手部动作识别，得到手部动作识别结果。
14.在一种可行的实施方式中，所述目光动作识别单元具体用于：将所述目标人员在所述人脸视频的每帧视频中的目光落点角度值进行平面直角坐标系映射，并将所述每帧视频中的目光落点角度值对应的目光坐标点进行连接，生成所述目标人员的目光动作线段，所述目光坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示目光落点角度值；调用预置的视线点检测模型对所述目光动作线段进行模板匹配；若所述目光动作线段中的任一线段和预设目光动作曲线模板的匹配距离大于或等于预设目光动作匹配距离，则确定所述目标人员的目光动作符合预设目光动作，所述预设目光动作包括目光慢瞟、目光快瞟和目光抖动；若所述目光动作线段中的每一线段和所述预设目光动作曲线模板的匹配距离小于所述预设目光动作匹配距离，则确定所述目标人员的目光动作未符合所述预设目光动作。
15.在一种可行的实施方式中，所述头部动作识别单元具体用于：将所述目标人员在所述人脸视频的每帧视频中的头部姿态角度值进行平面直角坐标系映射，并将所述每帧视频中的头部姿态角度值对应的头部姿态坐标点进行连接，生成所述目标人员的头部动作线段，所述头部姿态坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示头部姿态角度值；通过预置的头部姿态检测模型对所述头部动作线段进行模板匹配；若所述头部动作线段中的任一线段和预设头部动作曲线模板的匹配距离大于或等于预设头部动作匹配距离，则确定所述目标人员的头部动作符合预设头部动作，所述预设头部动作包括头部快速转动、头部向左转动和头部向右转动；若所述头部动作线段中的每一线段和所述预设头部动作曲线模板的匹配距离小于所述预设头部动作匹配距离，则确定所述目标人员的头部动作未符合预设头部动作。
16.在一种可行的实施方式中，所述手部动作识别单元具体用于：根据所述人脸视频生成所述目标人员的人脸区域位置框；对所述人脸视频进行手部检测；若所述人脸视频中存在手部，则生成所述手部对应的手部位置框；计算所述人脸区域位置框和所述手部位置框之间的交集值，所述交集值用于指示所述人脸区域位置框和所述手部位置框之间重叠区域的面积占所述人脸区域位置框和所述手部位置框的总面积的比值；若所述交集值大于或等于预设值，则确定所述目标人员的手部动作对所述目标人员的脸部形成遮挡；若所述交集值小于预设值，则确定所述目标人员的手部动作对所述目标人员的脸部未形成遮挡。
17.在一种可行的实施方式中，所述音频检测模块具体用于：当审批人员和目标人员
处于预置的音视频检测区域时，获取对应的音视频数据；将所述音视频数据中的音频数据进行提取，得到音频数据；对所述音频数据进行声纹特征提取，得到声纹特征序列；若所述声纹特征序列与预置的审批人员声纹特征序列匹配，则确定所述音视频数据中存在所述审批人员的音频；若所述声纹特征序列与预置的审批人员声纹特征序列未匹配，则确定所述音视频数据中未存在所述审批人员的音频。
18.在一种可行的实施方式中，所述视频面审辅助装置还包括：获取模块，用于若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时获取所述目标人员的人脸视频；颜色检测模块，用于根据所述人脸视频对所述目标人员的耳部进行颜色检测；第二确定模块，用于若所述耳部的颜色符合预设颜色，则确定所述目标人员存在面审欺诈行为。
19.本发明第三方面提供了一种视频面审辅助设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述视频面审辅助设备执行上述的视频面审辅助方法。
20.本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的视频面审辅助方法。
21.本发明提供的技术方案中，当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端。本发明实施例中，在审批人员和目标人员之间建立视频通信，当审批人员和目标人员处于预置的音视频检测区域时，获取音视频数据并进行音频检测，若存在审批人员的音频，则当审批人员的音频结束时对目标人员进行目光动作、头部动作和手部动作的识别，若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端，提高了视频面审中对欺诈行为的识别准确度。
附图说明
22.图1为本发明实施例中视频面审辅助方法的一个实施例示意图；
23.图2为本发明实施例中视频面审辅助方法的另一个实施例示意图；
24.图3为本发明实施例中视频面审辅助装置的一个实施例示意图；
25.图4为本发明实施例中视频面审辅助装置的另一个实施例示意图；
26.图5为本发明实施例中视频面审辅助设备的一个实施例示意图。
具体实施方式
27.本发明提供了一种视频面审辅助方法、装置、设备及存储介质，用于提高视频面审中对欺诈行为的识别准确度。
28.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
30.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
31.为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中视频面审辅助方法的一个实施例包括：
32.101、当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；
33.可以理解的是，本发明的执行主体可以为视频面审辅助装置，还可以是终端，具体此处不做限定。本发明实施例以终端为执行主体为例进行说明。
34.终端在审批人员和目标人员之间建立视频通信，当视频接通时，审批人员和目标人员具有各自的视频画面窗口，即音视频检测区域，通过视频画面窗口对审批人员和目标人员进行音视频检测。音视频数据中的音频可以是审批人员的音频，也可以目标人员的音频，还可以是审批人员和目标人员的音频。
35.102、若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；
36.音频检测用于检测音视频数据中是否存在审批人员的音频，若存在审批人员的音频，则当审批人员的音频结束时终端对目标人员进行动作识别，不仅可以更准确地识别目标人员在回答问题时的动作，而且可以减少能耗。
37.103、若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；
38.例如，若目标人员的目光动作符合目光慢瞟、头部动作符合头部快速转动或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为。
39.104、生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端。
40.提醒信息可以是语音提醒信息，也可以是文字提醒信息，例如，终端生成面审欺诈行为对应的提醒信息，提醒信息为语音提醒信息“请注意，目标人员存在欺诈行为！”，终端
将语音提醒信息发送至面审提醒终端，面审提醒终端播放“请注意，目标人员存在欺诈行为！”的语音；或者提醒信息为文字提醒信息“请注意，目标人员存在欺诈行为！”，终端将文字提醒信息发送至面审提醒终端，面审提醒终端在目标人员的视频画面窗口显示“请注意，目标人员存在欺诈行为！”的文字，从而提醒审批人员注意目标人员存在欺诈行为。
41.本发明实施例中，当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端，提高了视频面审中对欺诈行为的识别准确度。
42.请参阅图2，本发明实施例中视频面审辅助方法的另一个实施例包括：
43.201、当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；
44.具体的，(1)当审批人员和目标人员处于预置的音视频检测区域时，终端获取对应的音视频数据；(2)终端将音视频数据中的音频数据进行提取，得到音频数据；(3)终端对音频数据进行声纹特征提取，得到声纹特征序列；(4)若声纹特征序列与预置的审批人员声纹特征序列匹配，则终端确定音视频数据中存在审批人员的音频；(5)若声纹特征序列与预置的审批人员声纹特征序列未匹配，则终端确定音视频数据中未存在审批人员的音频。
45.例如，当审批人员和目标人员处于预置的音视频检测区域时，终端获取对应的音视频数据；终端将音视频数据中的音频数据进行提取，得到音频数据；终端对音频数据进行声纹特征提取，得到声纹特征序列，声纹特征序列用于指示声波频谱；若声纹特征序列与预置的审批人员声纹特征序列匹配，则终端确定音视频数据中存在审批人员的音频；若声纹特征序列与预置的审批人员声纹特征序列未匹配，则终端确定音视频数据中未存在审批人员的音频。
46.202、若音视频数据中存在审批人员的音频，则当审批人员的音频结束时获取目标人员的人脸视频；
47.终端根据动态时间规整算法(dynamic time warping，dtw)对目光动作和头部动作进行识别，dtw用于计算两个时间序列的相似度，尤其适用于不同长度、不同节奏的时间序列，例如，两个人念同一个词，得到两个不同的音频序列，dtw将自动扭曲时间序列，即在时间轴上进行局部的缩放，使得两个音频序列的形态尽可能一致，得到最大可能的相似度。
48.dtw采用了动态规划(dynamic programming，dp)的方式来进行时间规整的计算，例如，两个动作时间序列q和c，它们的长度分别是n和m，在动作匹配场景中，一个序列为参考模板，一个序列为测试模板，动作时间序列q共有n帧，第i帧的特征值(一个数或者一个向量)是qi，即q＝q1，q2，
…
，qi，
…
，qn；c＝c1，c2，
…
，cj，
…
，cm；构造一个n*m的矩阵网格，矩阵元素(i，j)用于表示qi和cj两个点的距离d(qi，cj)，即动作时间序列q的每一个点和动作时间序列c的每一个点之间的相似度，距离越小则相似度越高。一般采用欧式距离，距离公式为：d(qi,cj)＝(q
i-cj)2。
49.203、根据人脸视频进行目光动作识别，得到目光动作识别结果；
50.基于目标人员对应的音视频检测区域，将音视频检测区域对应的平面和目标人员的目光方向延长线所形成的夹角确定为目光落点角度值，并以音视频检测区域的中心点为原点，建立四个方向的方向轴，分别为：左方向横轴，右方向横轴，上方向竖轴和下方向竖轴，用于确定目标人员的目光落点方向。
51.具体的，(1)终端将目标人员在人脸视频的每帧视频中的目光落点角度值进行平面直角坐标系映射，并将每帧视频中的目光落点角度值对应的目光坐标点进行连接，生成目标人员的目光动作线段，目光坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示目光落点角度值；(2)终端调用预置的视线点检测模型对目光动作线段进行模板匹配；(3)若目光动作线段中的任一线段和预设目光动作曲线模板的匹配距离大于或等于预设目光动作匹配距离，则终端确定目标人员的目光动作符合预设目光动作，预设目光动作包括目光慢瞟、目光快瞟和目光抖动；(4)若目光动作线段中的每一线段和预设目光动作曲线模板的匹配距离小于预设目光动作匹配距离，则终端确定目标人员的目光动作未符合预设目光动作。
52.例如，终端将目标人员在人脸视频的每帧视频中的目光落点角度值进行平面直角坐标系映射，其中，多个正左方向的目光落点角度值分别为：10度、20度、30度、20度、10度和0度，并将每帧视频中的目光落点角度值对应的目光坐标点进行连接，生成目标人员的目光动作线段，目光坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示目光落点角度值，多个目光坐标点分别为：(1，10)、(2，20)、(3，30)、(4，20)、(5，10)和(6，0)；终端调用预置的视线点检测模型对目光动作线段进行模板匹配；若目光动作线段中的任一线段和预设目光动作曲线模板的匹配距离大于或等于预设目光动作匹配距离，则终端确定目标人员的目光动作符合预设目光动作，预设目光动作包括目光慢瞟、目光快瞟和目光抖动；若目光动作线段中的每一线段和预设目光动作曲线模板的匹配距离小于预设目光动作匹配距离，则终端确定目标人员的目光动作未符合预设目光动作。
53.204、根据人脸视频进行头部动作识别，得到头部动作识别结果；
54.基于目标人员对应的音视频检测区域，将音视频检测区域对应的平面和目标人员的额头中心点方向延长线所形成的夹角确定为头部姿态角度值，并基于步骤203的四个方向的方向轴，用于确定目标人员的头部方向。
55.具体的，(1)终端将目标人员在人脸视频的每帧视频中的头部姿态角度值进行平面直角坐标系映射，并将每帧视频中的头部姿态角度值对应的头部姿态坐标点进行连接，生成目标人员的头部动作线段，头部姿态坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示头部姿态角度值；(2)终端通过预置的头部姿态检测模型对头部动作线段进行模板匹配；(3)若头部动作线段中的任一线段和预设头部动作曲线模板的匹配距离大于或等于预设头部动作匹配距离，则终端确定目标人员的头部动作符合预设头部动作，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；(4)若头部动作线段中的每一线段和预设头部动作曲线模板的匹配距离小于预设头部动作匹配距离，则终端确定目标人员的头部动作未符合预设头部动作。
56.例如，终端将目标人员在人脸视频的每帧视频中的头部姿态角度值进行平面直角坐标系映射，其中，多个正右方向的头部姿态角度值分别为：5度、15度、25度、15度、5度和0
度，并将每帧视频中的头部姿态角度值对应的头部姿态坐标点进行连接，生成目标人员的头部动作线段，头部姿态坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示头部姿态角度值，多个头部姿态坐标点分别为：(1，5)、(2，15)、(3，25)、(4，15)、(5，5)和(6，0)；终端通过预置的头部姿态检测模型对头部动作线段进行模板匹配；若头部动作线段中的任一线段和预设头部动作曲线模板的匹配距离大于或等于预设头部动作匹配距离，则终端确定目标人员的头部动作符合预设头部动作，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；若头部动作线段中的每一线段和预设头部动作曲线模板的匹配距离小于预设头部动作匹配距离，则终端确定目标人员的头部动作未符合预设头部动作。
57.205、根据人脸视频进行手部动作识别，得到手部动作识别结果；
58.具体的，(1)终端根据人脸视频生成目标人员的人脸区域位置框；(2)终端对人脸视频进行手部检测；(3)若人脸视频中存在手部，则终端生成手部对应的手部位置框；(4)终端计算人脸区域位置框和手部位置框之间的交集值，交集值用于指示人脸区域位置框和手部位置框之间重叠区域的面积占人脸区域位置框和手部位置框的总面积的比值；(5)若交集值大于或等于预设值，则终端确定目标人员的手部动作对目标人员的脸部形成遮挡；(6)若交集值小于预设值，则终端确定目标人员的手部动作对目标人员的脸部未形成遮挡。
59.例如，基于目标人员对应的音视频检测区域，将音视频检测区域的左下角端点确定为原点，建立平面直角坐标系，终端根据人脸视频生成目标人员的人脸区域位置框，基于平面直角坐标系，生成人脸区域位置框对应的坐标信息，终端对人脸视频进行手部检测，若人脸视频中存在手部，则终端生成手部对应的手部位置框，基于平面直角坐标系，生成手部位置框对应的坐标信息，终端基于人脸区域位置框对应的坐标信息和手部位置框对应的坐标信息，计算人脸区域位置框和手部位置框之间的交集值，交集值用于指示人脸区域位置框和手部位置框之间重叠区域的面积占人脸区域位置框和手部位置框的总面积的比值，若交集值大于或等于预设值，则终端确定目标人员的手部动作对目标人员的脸部形成遮挡，若交集值小于预设值，则终端确定目标人员的手部动作对目标人员的脸部未形成遮挡。
60.需要说明的是，同时执行步骤203、步骤204和步骤205。
61.206、若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；
62.例如，若目标人员的目光动作符合目光快瞟、头部动作符合头部向左转动或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为。
63.207、生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端。
64.提醒信息可以是语音提醒信息，也可以是文字提醒信息，还可以是灯光提醒信息，例如，终端生成面审欺诈行为对应的提醒信息，提醒信息为灯光提醒信息“屏幕闪烁”，终端将灯光提醒信息发送至面审提醒终端，面审提醒终端控制屏幕进行闪烁，从而提醒审批人员注意目标人员存在欺诈行为。
65.可选的，步骤202至步骤206可以替换为以下步骤：
66.(1)若音视频数据中存在审批人员的音频，则当审批人员的音频结束时终端获取目标人员的人脸视频；(2)终端根据人脸视频对目标人员的耳部进行颜色检测；(3)若耳部
的颜色符合预设颜色，则终端确定目标人员存在面审欺诈行为。
67.需要说明的是，预设颜色为红色。例如，若音视频数据中存在审批人员的音频，则当审批人员的音频结束时终端获取目标人员的人脸视频，终端根据人脸视频对目标人员的耳部进行颜色检测，若耳部的颜色符合红色，则终端确定目标人员存在面审欺诈行为。
68.可选的，步骤202至步骤206还可以替换为以下步骤：
69.1)若音视频数据中存在审批人员的音频，则当审批人员的音频结束时终端获取目标人员的人脸视频；2)终端根据人脸视频对目标人员进行摸鼻子的行为识别；步骤2)包括：(1)终端根据人脸视频生成目标人员的鼻部位置框；(2)终端对人脸视频进行手部检测；(3)若人脸视频中存在手部，则终端生成手部对应的手部位置框；(4)终端判断鼻部位置框和手部位置框之间是否存在重叠的区域；(5)若存在重叠的区域，则终端确定目标人员存在摸鼻子的行为；(6)若未存在重叠的区域，则终端确定目标人员未存在摸鼻子的行为。3)若目标人员存在摸鼻子的行为，则终端确定目标人员存在面审欺诈行为。
70.例如，基于目标人员对应的音视频检测区域，将音视频检测区域的左下角端点确定为原点，建立平面直角坐标系，若音视频数据中存在审批人员的音频，则当审批人员的音频结束时终端获取目标人员的人脸视频，终端根据人脸视频生成目标人员的鼻部位置框，基于平面直角坐标系，生成鼻部位置框对应的坐标信息，终端对人脸视频进行手部检测，若人脸视频中存在手部，则终端生成手部对应的手部位置框，基于平面直角坐标系，生成手部位置框对应的坐标信息，终端基于鼻部位置框对应的坐标信息和手部位置框对应的坐标信息，判断鼻部位置框和手部位置框之间是否存在重叠的区域，若存在重叠的区域，则终端确定目标人员存在摸鼻子的行为，若未存在重叠的区域，则终端确定目标人员未存在摸鼻子的行为，若目标人员存在摸鼻子的行为，则终端确定目标人员存在面审欺诈行为。
71.本发明实施例中，当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端，提高了视频面审中对欺诈行为的识别准确度。
72.上面对本发明实施例中视频面审辅助方法进行了描述，下面对本发明实施例中视频面审辅助装置进行描述，请参阅图3，本发明实施例中视频面审辅助装置一个实施例包括：
73.音频检测模块301，用于当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；
74.动作识别模块302，用于若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；
75.第一确定模块303，用于若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左
转动和头部向右转动；
76.信息发送模块304，用于生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端。
77.本发明实施例中，当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端，提高了视频面审中对欺诈行为的识别准确度。
78.请参阅图4，本发明实施例中视频面审辅助装置的另一个实施例包括：
79.音频检测模块301，用于当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；
80.动作识别模块302，用于若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；
81.第一确定模块303，用于若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；
82.信息发送模块304，用于生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端。
83.可选的，动作识别模块302包括：
84.获取单元3021，用于若音视频数据中存在审批人员的音频，则当审批人员的音频结束时获取目标人员的人脸视频；
85.目光动作识别单元3022，用于根据人脸视频进行目光动作识别，得到目光动作识别结果；
86.头部动作识别单元3023，用于根据人脸视频进行头部动作识别，得到头部动作识别结果；
87.手部动作识别单元3024，用于根据人脸视频进行手部动作识别，得到手部动作识别结果。
88.可选的，目光动作识别单元3022具体用于：
89.将目标人员在人脸视频的每帧视频中的目光落点角度值进行平面直角坐标系映射，并将每帧视频中的目光落点角度值对应的目光坐标点进行连接，生成目标人员的目光动作线段，目光坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示目光落点角度值；
90.调用预置的视线点检测模型对目光动作线段进行模板匹配；
91.若目光动作线段中的任一线段和预设目光动作曲线模板的匹配距离大于或等于预设目光动作匹配距离，则确定目标人员的目光动作符合预设目光动作，预设目光动作包
括目光慢瞟、目光快瞟和目光抖动；
92.若目光动作线段中的每一线段和预设目光动作曲线模板的匹配距离小于预设目光动作匹配距离，则确定目标人员的目光动作未符合预设目光动作。
93.可选的，头部动作识别单元3023具体用于：
94.将目标人员在人脸视频的每帧视频中的头部姿态角度值进行平面直角坐标系映射，并将每帧视频中的头部姿态角度值对应的头部姿态坐标点进行连接，生成目标人员的头部动作线段，头部姿态坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示头部姿态角度值；
95.通过预置的头部姿态检测模型对头部动作线段进行模板匹配；
96.若头部动作线段中的任一线段和预设头部动作曲线模板的匹配距离大于或等于预设头部动作匹配距离，则确定目标人员的头部动作符合预设头部动作，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；
97.若头部动作线段中的每一线段和预设头部动作曲线模板的匹配距离小于预设头部动作匹配距离，则确定目标人员的头部动作未符合预设头部动作。
98.可选的，手部动作识别单元3024具体用于：
99.根据人脸视频生成目标人员的人脸区域位置框；
100.对人脸视频进行手部检测；
101.若人脸视频中存在手部，则生成手部对应的手部位置框；
102.计算人脸区域位置框和手部位置框之间的交集值，交集值用于指示人脸区域位置框和手部位置框之间重叠区域的面积占人脸区域位置框和手部位置框的总面积的比值；
103.若交集值大于或等于预设值，则确定目标人员的手部动作对目标人员的脸部形成遮挡；
104.若交集值小于预设值，则确定目标人员的手部动作对目标人员的脸部未形成遮挡。
105.可选的，音频检测模块301具体用于：
106.当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据；
107.将音视频数据中的音频数据进行提取，得到音频数据；
108.对音频数据进行声纹特征提取，得到声纹特征序列；
109.若声纹特征序列与预置的审批人员声纹特征序列匹配，则确定音视频数据中存在审批人员的音频；
110.若声纹特征序列与预置的审批人员声纹特征序列未匹配，则确定音视频数据中未存在审批人员的音频。
111.可选的，视频面审辅助装置还包括：
112.获取模块305，用于若音视频数据中存在审批人员的音频，则当审批人员的音频结束时获取目标人员的人脸视频；
113.颜色检测模块306，用于根据人脸视频对目标人员的耳部进行颜色检测；
114.第二确定模块307，用于若耳部的颜色符合预设颜色，则确定目标人员存在面审欺诈行为。
115.本发明实施例中，当审批人员和目标人员处于预置的音视频检测区域时，获取对
应的音视频数据，并基于音视频数据进行音频检测；若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为，其中，预设目光动作包括目光慢瞟、目光快瞟和目光抖动，预设头部动作包括头部快速转动、头部向左转动和头部向右转动；生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端，提高了视频面审中对欺诈行为的识别准确度。
116.上面图3和图4从模块化功能实体的角度对本发明实施例中的视频面审辅助装置进行详细描述，下面从硬件处理的角度对本发明实施例中视频面审辅助设备进行详细描述。
117.图5是本发明实施例提供的一种视频面审辅助设备的结构示意图，该视频面审辅助设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对视频面审辅助设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在视频面审辅助设备500上执行存储介质530中的一系列指令操作。
118.视频面审辅助设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如windows serve，mac os x，unix，linux，freebsd等等。本领域技术人员可以理解，图5示出的视频面审辅助设备结构并不构成对视频面审辅助设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
119.本发明还提供一种视频面审辅助设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述视频面审辅助方法的步骤。
120.本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述视频面审辅助方法的步骤。
121.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
122.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序
代码的介质。
123.以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种视频面审辅助方法，其特征在于，所述视频面审辅助方法包括：当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于所述音视频数据进行音频检测；若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时对所述目标人员进行多种动作的识别，所述多种动作包括目光动作、头部动作和手部动作；若所述目光动作符合预设目光动作、所述头部动作符合预设头部动作或所述手部动作对所述目标人员的脸部形成遮挡，则确定所述目标人员存在面审欺诈行为，其中，所述预设目光动作包括目光慢瞟、目光快瞟和目光抖动，所述预设头部动作包括头部快速转动、头部向左转动和头部向右转动；生成所述面审欺诈行为对应的提醒信息，并将所述提醒信息发送至面审提醒终端。2.根据权利要求1所述的视频面审辅助方法，其特征在于，所述若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时对所述目标人员进行多种动作的识别，所述多种动作包括目光动作、头部动作和手部动作，包括：若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时获取所述目标人员的人脸视频；根据所述人脸视频进行目光动作识别，得到目光动作识别结果；根据所述人脸视频进行头部动作识别，得到头部动作识别结果；根据所述人脸视频进行手部动作识别，得到手部动作识别结果。3.根据权利要求2所述的视频面审辅助方法，其特征在于，所述根据所述人脸视频进行目光动作识别，得到目光动作识别结果，包括：将所述目标人员在所述人脸视频的每帧视频中的目光落点角度值进行平面直角坐标系映射，并将所述每帧视频中的目光落点角度值对应的目光坐标点进行连接，生成所述目标人员的目光动作线段，所述目光坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示目光落点角度值；调用预置的视线点检测模型对所述目光动作线段进行模板匹配；若所述目光动作线段中的任一线段和预设目光动作曲线模板的匹配距离大于或等于预设目光动作匹配距离，则确定所述目标人员的目光动作符合预设目光动作，所述预设目光动作包括目光慢瞟、目光快瞟和目光抖动；若所述目光动作线段中的每一线段和所述预设目光动作曲线模板的匹配距离小于所述预设目光动作匹配距离，则确定所述目标人员的目光动作未符合所述预设目光动作。4.根据权利要求2所述的视频面审辅助方法，其特征在于，所述根据所述人脸视频进行头部动作识别，得到头部动作识别结果，包括：将所述目标人员在所述人脸视频的每帧视频中的头部姿态角度值进行平面直角坐标系映射，并将所述每帧视频中的头部姿态角度值对应的头部姿态坐标点进行连接，生成所述目标人员的头部动作线段，所述头部姿态坐标点对应的横坐标用于指示视频帧，对应的纵坐标用于指示头部姿态角度值；通过预置的头部姿态检测模型对所述头部动作线段进行模板匹配；若所述头部动作线段中的任一线段和预设头部动作曲线模板的匹配距离大于或等于预设头部动作匹配距离，则确定所述目标人员的头部动作符合预设头部动作，所述预设头
部动作包括头部快速转动、头部向左转动和头部向右转动；若所述头部动作线段中的每一线段和所述预设头部动作曲线模板的匹配距离小于所述预设头部动作匹配距离，则确定所述目标人员的头部动作未符合预设头部动作。5.根据权利要求2所述的视频面审辅助方法，其特征在于，所述根据所述人脸视频进行手部动作识别，得到手部动作识别结果，包括：根据所述人脸视频生成所述目标人员的人脸区域位置框；对所述人脸视频进行手部检测；若所述人脸视频中存在手部，则生成所述手部对应的手部位置框；计算所述人脸区域位置框和所述手部位置框之间的交集值，所述交集值用于指示所述人脸区域位置框和所述手部位置框之间重叠区域的面积占所述人脸区域位置框和所述手部位置框的总面积的比值；若所述交集值大于或等于预设值，则确定所述目标人员的手部动作对所述目标人员的脸部形成遮挡；若所述交集值小于预设值，则确定所述目标人员的手部动作对所述目标人员的脸部未形成遮挡。6.根据权利要求1所述的视频面审辅助方法，其特征在于，所述当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于所述音视频数据进行音频检测，包括：当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据；将所述音视频数据中的音频数据进行提取，得到音频数据；对所述音频数据进行声纹特征提取，得到声纹特征序列；若所述声纹特征序列与预置的审批人员声纹特征序列匹配，则确定所述音视频数据中存在所述审批人员的音频；若所述声纹特征序列与预置的审批人员声纹特征序列未匹配，则确定所述音视频数据中未存在所述审批人员的音频。7.根据权利要求1-6中任一项所述的视频面审辅助方法，其特征在于，在所述当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于所述音视频数据进行音频检测之后，在所述生成所述面审欺诈行为对应的提醒信息，并将所述提醒信息发送至面审提醒终端之前，还包括：若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时获取所述目标人员的人脸视频；根据所述人脸视频对所述目标人员的耳部进行颜色检测；若所述耳部的颜色符合预设颜色，则确定所述目标人员存在面审欺诈行为。8.一种视频面审辅助装置，其特征在于，所述视频面审辅助装置包括：音频检测模块，用于当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于所述音视频数据进行音频检测；动作识别模块，用于若所述音视频数据中存在所述审批人员的音频，则当所述审批人员的音频结束时对所述目标人员进行多种动作的识别，所述多种动作包括目光动作、头部动作和手部动作；
第一确定模块，用于若所述目光动作符合预设目光动作、所述头部动作符合预设头部动作或所述手部动作对所述目标人员的脸部形成遮挡，则确定所述目标人员存在面审欺诈行为，其中，所述预设目光动作包括目光慢瞟、目光快瞟和目光抖动，所述预设头部动作包括头部快速转动、头部向左转动和头部向右转动；信息发送模块，用于生成所述面审欺诈行为对应的提醒信息，并将所述提醒信息发送至面审提醒终端。9.一种视频面审辅助设备，其特征在于，所述视频面审辅助设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述视频面审辅助设备执行如权利要求1-7中任一项所述的视频面审辅助方法。10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述视频面审辅助方法。

技术总结
本发明涉及人工智能技术领域，公开了一种视频面审辅助方法、装置、设备及存储介质，用于提高视频面审中对欺诈行为的识别准确度。视频面审辅助方法包括：当审批人员和目标人员处于预置的音视频检测区域时，获取对应的音视频数据，并基于音视频数据进行音频检测；若音视频数据中存在审批人员的音频，则当审批人员的音频结束时对目标人员进行多种动作的识别，多种动作包括目光动作、头部动作和手部动作；若目光动作符合预设目光动作、头部动作符合预设头部动作或手部动作对目标人员的脸部形成遮挡，则确定目标人员存在面审欺诈行为；生成面审欺诈行为对应的提醒信息，并将提醒信息发送至面审提醒终端。审提醒终端。审提醒终端。

技术研发人员：熊文硕曾凡涛刘玉宇
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2022.06.17
技术公布日：2022/11/1

转载请注明原文地址: https://tieba.8miu.com/read-11351.html

专利

最新回复(0)