1.本发明涉及信息技术领域,尤其涉及一种直播画面暂停方法。
背景技术:2.直播主播直播过程中,需要去拿展示的产品、换配衣服、拿道具,上厕所等。但是这些画面并无法被删除。如果主播暂停会导致画面中断,如果直接播放又不美观。因此一般会采用中间画面进行替换。但是采用什么中间画面替换主播这些动作,暂停多久,当前并没有一套最佳的算法可进行选择。另外,不是所有的动作都属于隐私动作,因此并不一定要全部遮蔽,可以通过设置一定透明度去解决问题;而对超过一定隐私程度的隐私画面,存在着一个对直播暂停后如何匹配遮挡画面使直播画面仍流畅自然的值得解决的问题。
技术实现要素:3.本发明提供了一种直播画面暂停方法,主要包括:分别建立直播画面数据库和直播语音数据库;搭建主播动作识别模型,识别出隐私动作与非隐私动作类别;创建直播语音指令识别系统,识别主播语音指令;识别主播隐私动作与非隐私动作内容;当识别出隐私动作内容,直播暂停并确定暂停时间;直播暂停后对未超过隐私程度预设阈值的动作画面提高透明度;直播暂停后将超过隐私程度预设阈值的动作画面替换为与暂停时间相同的遮挡画面;进一步可选地,所述分别建立直播画面数据库和直播语音数据库包括:实时监测直播画面与音频,提取画面关键信息和音频;画面关键信息包括:人脸图像、主播动作图像、环境固定物体图像,音频包括:主播的语音;对画面关键信息进行预处理得到图像信息,对音频进行预处理得到音频信息;将图像信息与音频信息转化为数据分别储存在预建立的直播画面数据库和直播语音数据库中;包括:实时提取画面关键信息,建立直播画面数据库;实时提取主播语音指令,建立直播语音数据库;所述实时提取画面关键信息,建立直播画面数据库,具体包括:通过直播画面采集端(摄像头)将图像输入到直播平台,后台实时截取图片,提取画面关键信息。画面关键信息包括:不同主播的人脸图像、主播动作图像、环境固定物体图像。创建一个直播画面数据库,对人脸图像、主播动作图像以及环境固定物体图像进行预处理,提取特征信息,即为图像信息,再转化为二维数字矩阵存入该直播画面数据库。
4.所述实时提取主播语音指令,建立直播语音数据库,具体包括:从直播音频采集端(麦克风、声卡)获得音频,对获取的音频进行端点检测、滤波、预加重、分帧处理,得到音频信息。建立直播语音数据库,将音频信息以数据的形式保存在该直播语音数据库中。
5.进一步可选地,所述搭建主播动作识别模型,识别出隐私动作与非隐私动作类别包括:基于贝叶斯分类算法搭建主播动作识别模型,利用主播动作图像及其标签作为样
本,包含训练集与测试集;定义隐私动作与非隐私动作,隐私动作包括:上厕所、喝水、换外套、擤鼻涕、吃东西、拿道具、手伸入衣服、掏鼻孔、掏耳朵、吐痰、挠头皮、打哈欠、换内衣;非隐私动作为隐私动作以外的其他动作;对样本加入所述隐私动作和非隐私动作标签;对训练集进行预处理和特征提取,将带标签的训练集输入分类器进行模式学习,并建立分类决策规则;将测试集进行预处理和特征提取输入分类器,按照分类器建立的分类决策规则进行分类测试,评估分类的结果准确性,根据测试结果调整模型参数。
6.进一步可选地,所述创建直播语音指令识别系统,识别主播语音指令包括:创建直播语音指令识别系统,输入主播的语音指令音频,可输出文字信息;其中对输入音频进行端点检测、滤波、预加重、分帧处理,进行特征提取,得到特征向量;基于隐马尔可夫模型对特征提取得到的特征向量进行声学模型训练,得到音素信息;根据语言学相关理论进行语言模型训练,得到单个字或词相互关联的概率;创建字典,通过声学模型与语音模型对特征信息进行解码得到文字信息,根据文字信息可确定主播语音指令。
7.进一步可选地,所述识别主播隐私动作与非隐私动作内容包括:分别将直播画面数据库与直播语音数据库作为以上主播动作识别模型和直播语音指令识别系统的输入,输出对应的标签或文字信息;其中主播动作识别系统的实时识别结果以数据的形式储存起来,同时根据直播语音指令识别系统输出的结果识别出隐私动作或非隐私动作类别,以数据的方式储存起来。
8.进一步可选地,所述当识别出隐私动作内容,直播暂停并确定暂停时间包括:直播暂停指在识别出隐私动作的时候直播平台暂停获取直播画面采集端与直播音频采集端的信息;基于卷积神经网络建立一个时间匹配模型,输入主播动作内容及消耗时间类别进行训练,根据结果优化模型参数;最后将系统预测的隐私动作类别输入训练好的模型,输出隐私动作的消耗时间,即直播的暂停时间。
9.进一步可选地,所述直播暂停后对未超过隐私程度预设阈值的动作画面提高透明度包括:根据主播隐私动作与隐私程度之间的相关性建立一种映射,并拟合隐私程度与透明度之间的线性关系;在直播暂停后,根据识别的隐私动作类别及映射关系判断画面是否达到隐私程度预设阈值;当隐私程度未达到预设阈值时,继续获取直播采集端数据并按照线性关系将画面设置为对应的透明度,持续时间为通过时间匹配模型所匹配的暂停时间。
10.进一步可选地,所述直播暂停后将超过隐私程度预设阈值的动作画面替换为与暂停时间相同的遮挡画面包括:当识别的动作画面超过隐私程度预设阈值时,匹配该目标动作画面的遮挡动作及音频;基于卷积神经网络搭建一个深度学习模型匹配遮挡动作,生成姿势线条图;基于生成式对抗网络将姿势线条图映射到目标主播上生成遮挡画面;直播暂停后,将所述遮挡画面及其源视频音频输入到直播平台进行播放;包括:搭建主播动作深度学习模型,生成遮挡动作的姿势线条图;根据姿势线条图将目标动作画面替换为遮挡画面;所述搭建主播动作深度学习模型,生成遮挡动作的姿势线条图,具体包括:选择直播中主播出现的动作视频,提取关键帧图像,将所耗时间作为标签,形成一个样本;基于卷积神经网络搭建主播动作深度学习模型,输入样本集进行训练,得到与输入视频关键帧图像及所耗时间匹配度超过预设匹配度的遮挡动作;根据预训练好的姿势线条
生成器,输入遮挡动作,得到遮挡动作姿势线条图。
11.所述根据姿势线条图将目标动作画面替换为遮挡画面,具体包括:利用主播动作深度学习模型所生成的姿势线条图进行全局姿势归一化;基于生成式对抗网络(gan)学习训练一个遮挡画面匹配系统,包括一种映射g和一个对抗性鉴别器d;将姿势线条图输入遮挡画面匹配系统得到目标动作画面的遮挡画面;再创建一个gan,给遮挡画面面部表情及肢体轮廓增加细节和真实感。直播暂停后,将所述遮挡画面及其源视频音频输入到直播平台进行播放。
12.本发明实施例提供的技术方案可以包括以下有益效果:本发明能够实时监测出主播换衣服、拿道具、上厕所等动作画面,并根据这些可能的画面内容,识别是否属于隐私画面。将隐私程度未达到预设阈值的隐私动作画面提高透明度,将超过隐私程度预设阈值的隐私动作画面替换为遮挡画面,并且预测需要替换的时间。本发明能够更好地保护主播隐私,创建直播绿色环境;避免直播中断或者减少直播中断的次数,减少直播平台与服务器之间重连的次数与时间;保持直播暂停后的画面流畅,不影响观众的直播观看体验。
13.【附图说明】图1为本发明的一种直播画面暂停方法的流程图。
14.图2为本发明的隐私动作画面替换为遮挡画面的结构图。
15.【具体实施方式】为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
16.图1为本发明的一种直播画面暂停方法流程图。如图1所示,本实施例一种直播画面暂停方法具体可以包括:步骤101,分别建立直播画面数据库和直播语音数据库。
17.实时监测直播画面与音频,提取画面关键信息和音频。画面关键信息包括:人脸图像、主播动作图像、环境固定物体图像,音频包括:主播的语音。对画面关键信息进行预处理得到图像信息,对音频进行预处理得到音频信息。将图像信息与音频信息转化为数据分别储存在预建立的直播画面数据库和直播语音数据库中。例如:主播a和b出现在直播画面,a在招手并说“大家好”,b在微笑,那么系统要将a和b的人脸图像、a的招手动作、b的微笑动作、环境固定物体图像以及a的语音保存起来。此时画面关键信息为a和b的人脸图像、a的招手动作、b的微笑动作、环境固定物体图像,音频为a的语音。将画面关键信息进行预处理为图像信息再转化为数据储存在直播画面数据库中,将音频预处理得到音频信息转化为数据储存在直播语音数据库。只截取a和b的人脸图像、招手动作、微笑动作、环境固定物品及a的语音有效降低了系统的负载;将它们转化为数据流的形式更方便图像与数据之间的转换。
18.实时提取画面关键信息,建立直播画面数据库。
19.通过直播画面采集端(摄像头)将图像输入到直播平台,后台实时截取图片,提取画面关键信息。画面关键信息包括:不同主播的人脸图像、主播动作图像、环境固定物体图像。创建一个直播画面数据库,对人脸图像、主播动作图像以及环境固定物体图像进行预处理,提取特征信息,即为图像信息,再转化为二维数字矩阵存入该直播画面数据库。例如:主播a与b直播进行牙刷带货,他们出现在直播画面采集端(摄像头等)前,采集端实时获取的
图像包括a的微笑,b的招手以及周边的桌子、椅子、牙刷、衣服等图像,其中桌子、椅子、牙刷、衣服等图像为环境固定物品图像。将人脸图像、微笑、招手动作图片采用灰度化、几何变换、图像增强等方法进行预处理,得到图像信息并转化为数字矩阵存入建立好的直播画面数据库。
20.实时提取主播语音指令,建立直播语音数据库。
21.从直播音频采集端(麦克风、声卡)获得音频,对获取的音频进行端点检测、滤波、预加重、分帧处理,得到音频信息。建立直播语音数据库,将音频信息以数据的形式保存在该直播语音数据库中。创建这个数据库是为了实时获取主播直播暂停的语音指令。例如某主播说“不好意思,我去上一下厕所”,系统会从直播音频采集端提取出这句话并进行端点检测、滤波、预加重、分帧处理等预处理。预处理后得到音频信息将其转化为数据储存再直播语音数据库中。
22.步骤102,搭建主播动作识别模型,识别出隐私动作与非隐私动作类别。
23.基于贝叶斯分类算法搭建主播动作识别模型,利用主播动作图像及其标签作为样本,包含训练集与测试集。定义隐私动作与非隐私动作,隐私动作包括:上厕所、喝水、换外套、擤鼻涕、吃东西、拿道具、手伸入衣服、掏鼻孔、掏耳朵、吐痰、挠头皮、打哈欠、换内衣;非隐私动作为隐私动作以外的其他动作。对样本加入所述隐私动作和非隐私动作标签;对训练集进行预处理和特征提取,将带标签的训练集输入分类器进行模式学习,并建立分类决策规则;将测试集进行预处理和特征提取输入分类器,按照分类器建立的分类决策规则进行分类测试,评估分类的结果准确性,根据测试结果调整模型参数。例如:主播在直播过程中动作分为隐私动作和非隐私动作,其中隐私动作有:喝水、换外套、擤鼻涕、吃东西、拿道具、手伸入衣服、掏鼻孔、掏耳朵、吐痰、挠头皮、打哈欠、换内衣等等,其他动作比如起身、眨眼、微笑可以被视为非隐私动作。通过建立有监督学习模型,可以有效地识别出主播在直播过程中的动作类别。
24.步骤103,创建直播语音指令识别系统,识别主播语音指令。
25.创建直播语音指令识别系统,输入主播的语音指令音频,可输出文字信息。其中对输入音频进行端点检测、滤波、预加重、分帧处理,进行特征提取,得到特征向量;基于隐马尔可夫模型对特征提取得到的特征向量进行声学模型训练,得到音素信息;根据语言学相关理论进行语言模型训练,得到单个字或词相互关联的概率;创建字典,通过声学模型与语音模型对特征信息进行解码得到文字信息,根据文字信息可确定主播语音指令。例如,输入语音信号“我去下洗手间”(pcm文件等),再进行特征提取得到特征向量{1,2,3,4,56,0,...};训练得到声学模型:{1,2,3,4,56,0,...}-》{wo,qu,xia,xi,shou,jian};语言模型:我:0.0786,去:0.0546,我去:0.0898,洗手:0.0967,洗手间:0.6785;创建字典:{窝,wo},{我,wo},{去,qu},{下,xia},{洗,xi},{手,shou},{间,jian},{西,xi},{收,shou};最终可达到识别指令“我去下洗手间”的目的。
26.步骤104,识别主播隐私动作与非隐私动作内容。
27.分别将直播画面数据库与直播语音数据库作为以上主播动作识别模型和直播语音指令识别系统的输入,输出对应的标签或文字信息;其中主播动作识别系统的实时识别结果以数据的形式储存起来,同时根据直播语音指令识别系统输出的结果识别出隐私动作或非隐私动作类别,以数据的方式储存起来。例如:某主播在直播过程中准备喝水,她会做
一个伸手拿水杯的动作,这个动作被直播画面采集端获取然后进行预处理输入数据库,接着输入到主播动作识别模型,输出为隐私动作的标签“喝水”,以数据的形式储存起来;当然她也可以说“不好意思,我喝口水”,那么关键语音指令为“喝水”,这句话被直播语音数据库提取并输入到直播语音指令识别系统,输出相应的文字信息,系统再根据这个文字标签匹配到对应的隐私动作类别,以数据的形式储存起来。
28.步骤105,当识别出隐私动作内容,直播暂停并确定暂停时间。
29.直播暂停指在识别出隐私动作的时候直播平台暂停获取直播画面采集端与直播音频采集端的信息。基于卷积神经网络建立一个时间匹配模型,输入主播动作内容及消耗时间类别进行训练,根据结果优化模型参数。最后将系统预测的隐私动作类别输入训练好的模型,输出隐私动作的消耗时间,即直播的暂停时间。例如:某主播准备换一件外套,系统已经识别出这是一个换外套的隐私动作,那么就要将这个动作类别输入到训练好的时间匹配模型中,得到换外套的平均消耗时间为25.37s,因此直播画面在预测出换外套的那一刻起就会自动暂停25.37s。这种直播自动暂停区别于普通的人为暂停,因为它是系统自动停止了来自直播采集端数据的输入,目的是为了切换为其他画面或者音频数据进行输入,这样不会让画面出现中断的情况,可减少反复连接服务器的时间。
30.步骤106,直播暂停后对未超过隐私程度预设阈值的动作画面提高透明度。
31.根据主播隐私动作与隐私程度之间的相关性建立一种映射,并拟合隐私程度与透明度之间的线性关系。在直播暂停后,根据识别的隐私动作类别及映射关系判断画面是否达到隐私程度预设阈值。当隐私程度未达到预设阈值时,继续获取直播采集端数据并按照线性关系将画面设置为对应的透明度,持续时间为通过时间匹配模型所匹配的暂停时间。例如:系统预测了某主播的喝水动作,匹配的时间为10.57s,设定隐私程度阈值为2.3。建立一种主播隐私动作与隐私程度之间的映射关系,并拟合出隐私程度与透明度 之间的关系为:。系统自动暂停后根据已建立的映射关系判断出喝水动作的隐私程度为0.7,未超过隐私程度预设阈值,则继续获取直播采集端信息,设定画面透明度为11.11%并持续时间10.57s。
32.步骤107,直播暂停后将超过隐私程度预设阈值的动作画面替换为与暂停时间相同的遮挡画面。
33.当识别的动作画面超过隐私程度预设阈值时,匹配该目标动作画面的遮挡动作及音频。基于卷积神经网络搭建一个深度学习模型匹配遮挡动作,生成姿势线条图;基于生成式对抗网络将姿势线条图映射到目标主播上生成遮挡画面;直播暂停后,将所述遮挡画面及其源视频音频输入到直播平台进行播放。例如:某主播a做出掏鼻孔动作,系统捕捉到该动作画面后暂停并判定为隐私程度超过阈值的隐私动作,则停止直播画面和音频采集端的信息输入。利用训练好的深度学习模型生成出一个“对鼻头挠痒”遮挡动作的姿势线条图,再利用生成式对抗网络学习得到主播a“对鼻头挠痒”的遮挡画面。最后系统将该这遮挡画面及其对应音频输入到直播平台,给观众一个流畅观看也不失优雅的观看体验。
34.搭建主播动作深度学习模型,生成遮挡动作的姿势线条图。
35.选择直播中主播出现的动作视频,提取关键帧图像,将所耗时间作为标签,形成一
个样本;基于卷积神经网络搭建主播动作深度学习模型,输入样本集进行训练,得到与输入视频关键帧图像及所耗时间匹配度超过预设匹配度的遮挡动作;根据预训练好的姿势线条生成器,输入遮挡动作,得到遮挡动作姿势线条图。样本集要包括大量不同主播直播时的动作关键帧图像及标签,搭建这样一个模型是为了将直播过程中超过隐私程度预设阈值的动作画面逐若干帧替换成其他动作。其中这个替换的动作消耗时间要与原先动作消耗时间相似且所有帧动作图像匹配度要达到预设的标准,则所匹配的动作称为遮挡动作。模型训练好后会得到一组权重数据,最大权重对应的关键帧图像就是所要替换的遮挡动作。为了方便目标主播模拟该动作,利用预训练好的姿势生成器制作出姿势线条图。
36.根据姿势线条图将目标动作画面替换为遮挡画面。
37.利用主播动作深度学习模型所生成的姿势线条图进行全局姿势归一化;基于生成式对抗网络(gan)学习训练一个遮挡画面匹配系统,包括一种映射g和一个对抗性鉴别器d;将姿势线条图输入遮挡画面匹配系统得到目标动作画面的遮挡画面;再创建一个gan,给遮挡画面面部表情及肢体轮廓增加细节和真实感。直播暂停后,将所述遮挡画面及其源视频音频输入到直播平台进行播放。全局姿势归一化是为了匹配目标主播的身形结构,利用生成式对抗网络可以使得替换的动作画面更加逼真且清晰,达到替换动作后衔接自然且直播仍然流畅的目的。生成式对抗网络(gan)的目标损失函数为:其中 表示下标指定分布的期望, 表示映射d, 表示对抗性鉴别器g。
38.例如,伯克利的研究人员在论文《everybodydancenow》中提出了一种简单的动作迁移法:首先使用了最先进的动作检测器openpose将源视频中每帧动作图像转化为姿势线条图。然后使用了wang等人提出的pix2pixhd模型转换为目标人物的动作图像。最后利用pix2pixhd的全局生成器生成目标人物的面部图像,使之表情自然清晰。
技术特征:1.一种直播画面暂停方法,其特征在于,所述方法包括:分别建立直播画面数据库和直播语音数据库,所述分别建立直播画面数据库和直播语音数据库,具体包括:实时提取画面关键信息,建立直播画面数据库,实时提取主播语音指令,建立直播语音数据库;搭建主播动作识别模型,识别出隐私动作与非隐私动作类别;创建直播语音指令识别系统,识别主播语音指令;识别主播隐私动作与非隐私动作内容;当识别出隐私动作内容,直播暂停并确定暂停时间;直播暂停后对未超过隐私程度预设阈值的动作画面提高透明度;直播暂停后将超过隐私程度预设阈值的动作画面替换为与暂停时间相同的遮挡画面,所述直播暂停后将超过隐私程度预设阈值的动作画面替换为与暂停时间相同的遮挡画面,具体包括:搭建主播动作深度学习模型,生成遮挡动作的姿势线条图,根据姿势线条图将目标动作画面替换为遮挡画面。2.根据权利要求1所述的方法,其中,所述分别建立直播画面数据库和直播语音数据库,包括:实时监测直播画面与音频,提取画面关键信息和音频;画面关键信息包括:人脸图像、主播动作图像、环境固定物体图像,音频包括:主播的语音;对画面关键信息进行预处理得到图像信息,对音频进行预处理得到音频信息;将图像信息与音频信息转化为数据分别储存在预建立的直播画面数据库和直播语音数据库中;包括:实时提取画面关键信息,建立直播画面数据库;实时提取主播语音指令,建立直播语音数据库;所述实时提取画面关键信息,建立直播画面数据库,具体包括:通过直播画面采集端(摄像头)将图像输入到直播平台,后台实时截取图片,提取画面关键信息;画面关键信息包括:不同主播的人脸图像、主播动作图像、环境固定物体图像;创建一个直播画面数据库,对人脸图像、主播动作图像以及环境固定物体图像进行预处理,提取特征信息,即为图像信息,再转化为二维数字矩阵存入该直播画面数据库;所述实时提取主播语音指令,建立直播语音数据库,具体包括:从直播音频采集端(麦克风、声卡)获得音频,对获取的音频进行端点检测、滤波、预加重、分帧处理,得到音频信息;建立直播语音数据库,将音频信息以数据的形式保存在该直播语音数据库中。3.根据权利要求1所述的方法,其中,所述搭建主播动作识别模型,识别出隐私动作与非隐私动作类别,包括:基于贝叶斯分类算法搭建主播动作识别模型,利用主播动作图像及其标签作为样本,包含训练集与测试集;定义隐私动作与非隐私动作,隐私动作包括:上厕所、喝水、换外套、擤鼻涕、吃东西、拿道具、手伸入衣服、掏鼻孔、掏耳朵、吐痰、挠头皮、打哈欠、换内衣;非隐私动作为隐私动作以外的其他动作;对样本加入所述隐私动作和非隐私动作标签;对训练集进行预处理和特征提取,将带标签的训练集输入分类器进行模式学习,并建立分类决策规则;将测试集进行预处理和特征提取输入分类器,按照分类器建立的分类决策规则进行分类测试,评估分类的结果准确性,根据测试结果调整模型参数。4.根据权利要求1所述的方法,其中,所述创建直播语音指令识别系统,识别主播语音指令,包括:创建直播语音指令识别系统,输入主播的语音指令音频,可输出文字信息;其中对输入音频进行端点检测、滤波、预加重、分帧处理,进行特征提取,得到特征向量;基于隐马尔可
夫模型对特征提取得到的特征向量进行声学模型训练,得到音素信息;根据语言学相关理论进行语言模型训练,得到单个字或词相互关联的概率;创建字典,通过声学模型与语音模型对特征信息进行解码得到文字信息,根据文字信息可确定主播语音指令。5.根据权利要求1所述的方法,其中,所述识别主播隐私动作与非隐私动作内容,包括:分别将直播画面数据库与直播语音数据库作为以上主播动作识别模型和直播语音指令识别系统的输入,输出对应的标签或文字信息;其中主播动作识别系统的实时识别结果以数据的形式储存起来,同时根据直播语音指令识别系统输出的结果识别出隐私动作或非隐私动作类别,以数据的方式储存起来。6.根据权利要求1所述的方法,其中,所述当识别出隐私动作内容,直播暂停并确定暂停时间,包括:直播暂停指在识别出隐私动作的时候直播平台暂停获取直播画面采集端与直播音频采集端的信息;基于卷积神经网络建立一个时间匹配模型,输入主播动作内容及消耗时间类别进行训练,根据结果优化模型参数;最后将系统预测的隐私动作类别输入训练好的模型,输出隐私动作的消耗时间,即直播的暂停时间。7.根据权利要求1所述的方法,其中,所述直播暂停后对未超过隐私程度预设阈值的动作画面提高透明度,包括:根据主播隐私动作与隐私程度之间的相关性建立一种映射,并拟合隐私程度与透明度之间的线性关系;在直播暂停后,根据识别的隐私动作类别及映射关系判断画面是否达到隐私程度预设阈值;当隐私程度未达到预设阈值时,继续获取直播采集端数据并按照线性关系将画面设置为对应的透明度,持续时间为通过时间匹配模型所匹配的暂停时间。8.根据权利要求1所述的方法,其中,所述直播暂停后将超过隐私程度预设阈值的动作画面替换为与暂停时间相同的遮挡画面,包括:当识别的动作画面超过隐私程度预设阈值时,匹配该目标动作画面的遮挡动作及音频;基于卷积神经网络搭建一个深度学习模型匹配遮挡动作,生成姿势线条图;基于生成式对抗网络将姿势线条图映射到目标主播上生成遮挡画面;直播暂停后,将所述遮挡画面及其源视频音频输入到直播平台进行播放;包括:搭建主播动作深度学习模型,生成遮挡动作的姿势线条图;根据姿势线条图将目标动作画面替换为遮挡画面;所述搭建主播动作深度学习模型,生成遮挡动作的姿势线条图,具体包括:选择直播中主播出现的动作视频,提取关键帧图像,将所耗时间作为标签,形成一个样本;基于卷积神经网络搭建主播动作深度学习模型,输入样本集进行训练,得到与输入视频关键帧图像及所耗时间匹配度超过预设匹配度的遮挡动作;根据预训练好的姿势线条生成器,输入遮挡动作,得到遮挡动作姿势线条图;所述根据姿势线条图将目标动作画面替换为遮挡画面,具体包括:利用主播动作深度学习模型所生成的姿势线条图进行全局姿势归一化;基于生成式对抗网络(gan)学习训练一个遮挡画面匹配系统,包括一种映射g和一个对抗性鉴别器d;将姿势线条图输入遮挡画面匹配系统得到目标动作画面的遮挡画面;再创建一个gan,给遮挡画面面部表情及肢体轮廓增加细节和真实感;直播暂停后,将所述遮挡画面及其源视频音频输入到直播平台进行播放。
技术总结本申请提供一种直播画面暂停方法,包括:分别建立直播画面数据库和直播语音数据库,具体包括:实时提取画面关键信息,建立直播画面数据库,实时提取主播语音指令,建立直播语音数据库;搭建主播动作识别模型,识别出隐私动作与非隐私动作类别;创建直播语音指令识别系统,识别主播语音指令;识别主播隐私动作与非隐私动作内容;当识别出隐私动作内容,直播暂停并确定暂停时间;直播暂停后对未超过隐私程度预设阈值的动作画面提高透明度;直播暂停后将超过隐私程度预设阈值的动作画面替换为与暂停时间相同的遮挡画面,具体包括:搭建主播动作深度学习模型,生成遮挡动作的姿势线条图,根据姿势线条图将目标动作画面替换为遮挡画面。画面。画面。
技术研发人员:刘玲玲 彭飞凌
受保护的技术使用者:数效(深圳)科技有限公司
技术研发日:2022.07.25
技术公布日:2022/11/1