本发明属于计算机视觉领域,具体涉及一种基于辅助意见的零样本视频质量评价方法。
背景技术:
1、近年来,基于意见驱动的vqa(video qualityassessment)方法取得了显著进展。然而,这些方法严重依赖于人类意见,导致模型只能适应训练数据集中的数据分布,这是一个巨大的挑战。为了获得可靠的平均意见分数(mos),需要耗费大量时间和人力资源来收集大量的人类意见,通常需要至少25个注释者的努力,有时甚至需要更多。因此,这些方法的训练数据集规模通常有限,导致它们在新数据集上的泛化能力较弱。例如,使用仅包含1200个标记视频的konvid-1k数据集进行训练的vqa方法与youtube-ugc数据集中的人类意见相关性较差。由于数据集规模有限,这些方法的泛化性能不稳定,严重限制了它们在实际应用中的价值。
2、目前,基于意见驱动的质量评估方法需要依赖大量人类质量注释的数据。对此,研究人员正积极探索一些解决方案。一种策略是通过增加训练数据集的规模来改善模型的泛化能力。例如,可以使用视频共享平台上的大规模用户生成内容(ugc)数据集,并利用互联网共享评价的方式获取更多的人类意见,并将其与原始训练数据集合并,以提高模型的可学习样本量,如lsvq数据集的采集。另一种策略是零样本学习方法。零样本学习能够在没有人类质量注释的情况下对立体视频的质量问题进行全面检查。这种方法的引入为视频质量评估提供了一种更具可扩展性和普适性的解决方案。因此,在零样本的方法中,怎样提升泛化能力,使模型关注视频失真是本发明解决的问题。
技术实现思路
1、本发明的目的在于提供一种基于辅助意见的零样本视频质量评价方法,通过在感知质量评估任务、场景分类任务和失真类型分类任务上进行联合训练,加强了模型对高级语义的理解能力,并使用的大型图像质量评价数据集中迁移知识,加强了文本提示对于失真类型的敏感度。
2、为实现上述目的,本发明的技术方案是:一种基于辅助意见的零样本视频质量评价方法,包括如下步骤:
3、步骤s1、对视频时间下采样,计算空间自然分数;对同样视频空间下采样,计算出时间自然分数,将空间自然分数、时间自然分数分别经过高斯归一化和sigmoid函数重新缩放;
4、步骤s2、将对抗性语言-图像预训练模型clip在图像质量评价数据集上进行微调,并添加场景和失真类型的标签,建立文本提示,使文本提示与图像对应的特征建立对应关系;
5、步骤s3、对视频时空下采样,嵌入经过步骤s2微调后的clip,提取视频整体相关的高级语义特征,使用clip预测文本建议质量分数,并通过高斯归一化和sigmoid函数重新缩放对齐分数;
6、步骤s4、将步骤s1和s3计算出的时间自然分数、空间自然分数和文本建议质量分数相加,得到更全面的视频质量分数。
7、在本发明一实施例中,所述步骤s1具体为:
8、步骤s11、对视频时间下采样,降低帧率,即设置视频保留它原来的空间分辨率,但在时间上只保持times的统一帧数,然后计算空间自然分数;
9、步骤s12、对同样视频空间下采样,降低视频的空间复杂度,即所有视频都在空间上降采样到短尺寸270,并保持原始的纵横比,然后将所有帧都输入时间失真计算模型,计算出时间自然分数。
10、在本发明一实施例中,所述空间自然分数计算操作如下:
11、首先,通过niqe算法计算niqe指标分数qniqe,i。niqe算法是一种无参考图像质量评价算法,旨在评估图像的自然度,即图像看起来是否像自然场景。niqe算法基于一组质量感知特征,并将其拟合到mvg模型中。质量感知特征源于一个简单但高度正则化的nss(自然场景统计)模型。然后,将给定的视频帧的niqe指标分数表示为:从视频帧中提取的质量感知特征的mvg模型与从自然图像语料中提取的质量感知特征的mvg模型之间的距离;
12、然后,将niqe指标分数qniqe,i经过平均池化、高斯归一化和sigmoid函数重新缩放,得到空间自然分数qs:
13、
14、其中,times为整个视频下采样后的总帧数,σ为标准差计算操作,i表示第i帧,和σ(qniqe,i)分别为整个集合中niqe指标分数的均值和标准偏差。
15、在本发明一实施例中,所述时间自然分数计算操作如下:
16、基于三个连续帧的神经域轨迹,通过tpqi获取相邻视频帧之间的非平滑帧间变化;具体来说,通过2d gabor过滤器和外侧膝状核lgn域计算初级视觉皮层v1的模拟神经反应,然后从两个域的曲率得到tpqi质量分数:
17、
18、其中,m为整个视频中的总帧数,和分别为三帧视频集(j-1,j,j+1)上的曲率;通过高斯归一化和sigmoid函数重新缩放,从qtpqi中映射出时间自然度分数qt:
19、
20、其中,和σ(qtpqi,j)分别为整个集合中tpqi质量分数的均值和标准偏差。
21、在本发明一实施例中,所述步骤s2具体为:
22、步骤s21、在图像质量评价数据集上,采用预训练的clip对图像进行编码;
23、步骤s22、对设置的文本提示采用预训练的clip编码;
24、步骤s23、对于图像编码得到的特征和文本编码后的特征作余弦相似度,余弦相似度最大的作为输出的分类结果;将质量分类quality视为权值,计算图像的得分
25、
26、其中,c=5为质量水平的数量,c∈c={1,2,3,4,5},为c被估计的边际概率,x=5表示分为5个质量水平;
27、步骤s2、对步骤s23得到的结果采用图像质量评估数据集监督训练,并对clip模型微调。
28、在本发明一实施例中,将图像质量评价数据集分为8种失真类型,9个场景,5类质量得分;其中,失真类型为dis={“模糊”,“颜色失真”,“jpeg压缩”,“噪声”,“空间失真”,“曝光不足”,“过度曝光”和“抖动”};场景类别为scene={“动物”,“城市景观”,“人类”,“室内场景”,“景观”,“夜景”,“植物”,“静物”和“其他”};质量得分类别为quality={1,2,3,4,5}={“坏”,“差”,“一般”,“好”和“完美”};
29、然后,创建一个英文模板,将来自失真类型、场景、质量得分三个任务的标签放在一起,总共有8×9×5=360个候选文本描述。
30、在本发明一实施例中,所述步骤s3具体为:
31、步骤s31、对视频进行时间和空间下采样,视频每隔3帧进行一次推理,而对于每一帧,均匀地裁剪出8个尺寸为224×224×3的图像块为一个视频帧的代表图像;
32、步骤s32、将8个图像块输入步骤s2微调后的clip,得到视频帧的文本建议质量得分
33、步骤s32、将帧级质量得分平均池化得到然后经过高斯归一化和sigmoid函数重新缩放,得到帧级自然分数qlsqi。
34、在本发明一实施例中,所述步骤s4具体为:在已对齐的qlsqi、qs和qt基础上定义综合性的视频质量分数qmix:
35、qmix=qlsqi+qs+qt
36、其中,qlsqi、qs和qt分别表示帧级自然分数、空间自然分数、时间自然分数。
37、本发明还提供了一种基于辅助意见的零样本视频质量评价系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
38、本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
39、相较于现有技术,本发明具有以下有益效果:
40、1、本发明基于对抗性语言-图像预训练网络(clip)来确保文本提示和视觉特征之间的对应,获取了视频的高级语义特征;
41、2、本发明考虑到视频场景和失真类型对感知质量的影响,设计了基于辅助知识的多任务学习方法,提升了模型对图像的理解能力以及对失真的感知能力;
42、3、本发明基于iqa数据集和vqa数据集的相似性,提出从具有真实失真的图像质量评估数据集中转移知识,并优化文本来提升适应性,解决了数据集有限的问题。
1.一种基于辅助意见的零样本视频质量评价方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于辅助意见的零样本视频质量评价方法,其特征在于,所述步骤s1具体为:
3.根据权利要求2所述的基于辅助意见的零样本视频质量评价方法,其特征在于,所述空间自然分数计算操作如下:
4.根据权利要求2所述的基于辅助意见的零样本视频质量评价方法,其特征在于,所述时间自然分数计算操作如下:
5.根据权利要求1所述的基于辅助意见的零样本视频质量评价方法,其特征在于,所述步骤s2具体为:
6.根据权利要求5所述的基于辅助意见的零样本视频质量评价方法,其特征在于,
7.根据权利要求1所述的基于辅助意见的零样本视频质量评价方法,其特征在于,所述步骤s3具体为:
8.根据权利要求1所述的基于辅助意见的零样本视频质量评价方法,其特征在于,所述步骤s4具体为:在已对齐的qlsqi、qs和qt基础上定义综合性的视频质量分数qmix:
9.一种基于辅助意见的零样本视频质量评价系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8任一所述的方法步骤。
10.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8任一所述的方法步骤。