一种基于感知优化的HDR视频编码方法

专利2025-07-06  50


本发明涉及一种视频编码方法,尤其是一种基于感知优化的hdr视频编码方法。


背景技术:

1、与传统低动态范围视频相比,高动态范围(high dynamic rang,hdr)视频可以更加准确地记录真实场景的宽动态范围色彩信息,包含的色彩空间大、层次丰富,可以准确记录真实场景的全动态范围色彩信息,可以呈现比传统低动态范围视频更加逼真的视觉效果,广泛应用于卫星遥感、医学成像、虚拟现实、数字成像等各个领域。但hdr视频带来更好视觉体验的同时,其自身庞大的数据量也对视频压缩编码技术带来了新的挑战。

2、传统的编码方案没有考虑人类视觉系统(human vision system,hvs)的感知特性,无法在比特率受限制的情况下提供最佳的视觉体验。为此,近年来结合hvs特性的感知优化编码受到广泛关注。根据编码器内部结构是否改变,结合hvs特性的视觉感知编码可以分为基于预处理的方法和嵌入式编码方法。基于预处理的方法从视觉感知机制出发,考虑空间掩蔽效应、亮度及对比敏感度、注意力等特性,在编码前对视频进行预处理。但预处理方法中构建的jnd模型大多都从图像本身出发,未充分考虑hvs特性,尤其是人眼的视觉感知。此类方法存在一些弊端,例如混合不同掩蔽效应后的jnd模型对编码性能提升更大,但其解码后视频的主观效果较差。

3、嵌入式编码方法通过直接修改编码器内部结构而提升编码性能,其中码率控制是嵌入式编码的主要研究方向。但学者们重点关注寻找新的r-d模型,或者新的比特分配策略,未充分考虑不同ctu块之间的联系以及比特分配策略和人眼视觉之间的关系,尤其是人眼对不同ctu块的关注程度,最终降低人们的视觉体验。


技术实现思路

1、本发明所要解决的技术问题是提供一种基于感知优化的hdr视频编码方法,解决了直接编码hdr视频造成过多的视觉冗余、编码码率分配不均以及视觉感知效果较差问题,具有更好的主观视觉感知效果。

2、本发明解决上述技术问题所采用的技术方案为:一种基于感知优化的hdr视频编码方法,包括以下步骤:

3、步骤①,获取待编码的hdr视频,通过感知量化传递函数将待编码的hdr视频转换为yuv视频;

4、步骤②,将yuv视频逐帧输入至感知无损预处理模型中进行感知无损重建,得到感知无损视频;

5、步骤③,将感知无损视频逐帧输入至嵌有基于视觉感知显著度的ctu级量化模型的编码平台中进行编码压缩,得到编码压缩后的hdr视频,完成hdr视频编码;

6、步骤③中,得到编码压缩后的hdr视频的具体操作过程如下:

7、步骤③-1,将感知无损视频的第一帧作为当前帧;

8、步骤③-2,将当前帧均划分为o个大小为128×128的待编码的ctu,获取并融合每个待编码的ctu的空域感知显著度和时域感知显著度,得到当前帧中每个待编码的ctu的时空显著度;

9、步骤③-3,利用率失真优化技术为当前帧中每个待编码的ctu分配目标比特数,根据当前帧中每个待编码的ctu的时空显著度和目标比特数构建得到当前帧对应的基于视觉感知显著度的ctu级量化模型;

10、步骤③-4,将感知无损视频中下一帧作为当前帧,返回步骤③-2继续执行,直至感知无损视频中所有帧均构建得到对应的基于视觉感知显著度的ctu级量化模型;

11、步骤③-5,将每帧对应的基于视觉感知显著度的ctu级量化模型嵌入至原有的编码平台中得到嵌有基于视觉感知显著度的ctu级量化模型的编码平台,将感知无损视频逐帧输入至嵌有基于视觉感知显著度的ctu级量化模型的编码平台中,得到编码压缩后的hdr视频。

12、与现有技术相比,本发明的优点在于先通过感知量化传递函数将待编码的hdr视频转换为yuv视频,再通过感知无损预处理模型对yuv视频进行感知无损重建,在上步骤的基础上,通过构建特定的基于视觉感知显著度的ctu级量化模型,用于指导ctu级的比特分配,使得编码过程中不仅消除了hdr视频自身的视觉感知冗余,提高了编码性能,同时使得编码码率分配均匀,最终实现符合人眼感知的码率再分配,提高了编码效率;对不同视频测试序列进行编码得到的实验结果表明,与vvc参考编码平台vtm 17.0相比,本发明的方法平均节约的编码比特为22.67%,平均节省的编码时间为26.91%,平均提升了5.07%的峰值信噪比,因此本发明的方法编码视频的失真小、质量好以及压缩效率高,具有更好的主观视觉感知效果。

13、进一步的,步骤②中,得到感知无损视频的具体操作过程如下:

14、步骤②-1,将yuv视频的第一帧作为当前帧;

15、步骤②-2,将当前帧记为i,其大小记为m×n,将i分割成大小为的互不重叠图像子块集合,并用矩阵形式表示i=[i1,i2,…,is,…is]∈rk×s,其中,is∈rk×1表示第s个图像子块矢量,1≤s≤s,k表示分割后图像子块的面积,s表示当前帧分割后图像子块的总数,定义i的协方差矩阵为covi,其中,i表示i的平均行向量,t表示转置;

16、步骤②-3,计算协方差矩阵covi的特征值和特征向量,并将特征向量按特征值大小降序排列,得到特征向量矩阵p,p=[p1,p2,…,pk,…,pk]∈rk×k,其中,pk∈rk×1表示第k个特征向量,1≤k≤k;

17、步骤②-4,对i进行klt变换,该操作表示为:y=pti,其中,y=[y1,y2,…,yk,…,yk]t∈rk×s表示i变换后的klt系数矩阵,yk=(pk)t×i表示系数矩阵的第k个光谱分量,t表示转置;

18、步骤②-5,计算第k个光谱分量的klt系数能量ex,

19、步骤②-6,对第k个光谱分量的klt系数能量进行归一化,得到对应的归一化后的系数能量epk,

20、步骤②-7,将前k个归一化后的系数能量进行累计,得到累计后的能量分布epk,epk=ep1+ep2+…epk,1≤k≤k;

21、步骤②-8,根据累计后的能量分布epk和前k个光谱分量,得到当前帧的感知无损阈值l,l=argmink,其中,表示预设的klt系数的平均值,表示变化范围;

22、步骤②-9,结合感知无损阈值l,利用前l个光谱分量通过klt逆变换重建视频图像,得到当前帧的感知无损图,该操作表示为:

23、i(l)=py(l)

24、y(l)∈rk×s

25、其中,i(l)表示当前帧的感知无损图,y(l)表示重建klt系数矩阵;

26、步骤②-10,将yuv视频中下一帧作为当前帧,返回步骤②-2继续执行,直至yuv视频中每帧均得到对应的感知无损图,并将所有感知无损图作为感知无损视频。基于jnd理论,构建基于klt变换的感知无损预处理模型对输入的yuv视频进行预处理以提升编码性能;并且基于klt正交变换结合感知无损阈值可以消除视觉冗余。

27、进一步的,步骤③-2中,得到当前帧中每个待编码的ctu的时空显著度的具体操作过程如下:

28、步骤③-2-1,将当前帧的共生矩阵记为h,h=[h(a,b)],1≤a,b≤j,其中,j表示量化等级,h(a,b)表示共生直方图,a,b分别表示灰度值;

29、步骤③-2-2,对h进行归一化得到概率质量函数p(a,b);

30、步骤③-2-3,计算当前帧中第,个像素点的空域视觉显著性ss(p),

31、ss(p)=∑invp(vhdr(p),vhdr(p′)),其中,invp表示反向概率质量函数,vhdr(p)表示第p个像素点的灰度值,1≤p≤a,a表示当前帧的像素点总数,vhdr(p′)表示p′点的灰度值,p′表示以第p个像素点为中心,半径为r的圆中的点,r=4;

32、步骤③-2-4,计算当前帧中第o个待编码的ctu的空域显著度svs(o),其中,d表示第o个待编码的ctu的尺寸,ss(p)表示第o个待编码的ctu中第p个像素点的空域显著度,1≤ o≤o;

33、步骤③-2-5,计算当前帧中第o个待编码的ctu的空域感知显著度其中,svsmax表示所有ctu的空域显著度中的最大空域显著度,svsmin表示所有ctu的空域显著度中的最小空域显著度;

34、步骤③-2-6,计算当前帧中第,个像素点的时域显著度st(p),其中,yp(i,j)表示当前帧中第p个像素点的亮度分量,ycp′(i,j)表示当前帧的参考帧的同一位置第p′个像素点的亮度分量;

35、步骤③-2-7,计算当前帧中第o个待编码的ctu的时域显著度tvs(o),其中,d表示第o个待编码的ctu的尺寸,st(p)表示第o个待编码的ctu中第p个像素点的时域显著度;

36、步骤③-2-8,计算当前帧中第o个待编码的ctu的时域感知显著度其中,tvsmax表示所有待编码的ctu的时域显著度中的最大时域显著度,tvsmin表示所有待编码的ctu的时域显著度中的最小时域显著度;

37、步骤③-2-9,将当前帧中第o个待编码的ctu的空域感知显著度和当前帧中第o个待编码的ctu的时域感知显著度进行融合,得到当前帧中第o个待编码的ctu的时空显著度其中,θ1表示第一常数参数,θ2表示第二常数参数,θ3表示第三常数参数。

38、进一步的,步骤③-3的具体操作过程如下:

39、步骤③-3-1,利用率失真优化技术为当前帧中第m个待编码的ctu分配一个目标比特数tctu(m),其中,tf表示当前帧的目标比特数,rctum,c表示当前帧中已编码的ctu所用的实际比特总数,表示当前帧中第m个待编码的ctu的比特权重,表示当前帧中第m个待编码的ctu的时空显著度,表示当前帧中第i个待编码的ctu的时空显著度,1≤m≤o;

40、步骤③-3-2,构建基于视觉感知显著度的ctu级量化模型,表示为:

41、qpvts=4.2005lnλvps(m)+13.7122+0.5,

42、限制为

43、其中,qpvps表示量化参数,λvps(m)表示第m个待编码的ctu的拉格朗日因子,λvps_adjoinctu表示与第m个待编码的ctu相邻ctu的拉格朗日因子,其中,α和β分别表示与视频内容特性相关的模型参数,npixel表示第m个待编码的ctu的像素总数。比特分配目的是给每个编码单元分配最优的目标比特数,使得视频编码后的总失真最小。

44、进一步的,步骤③-2-9中θ1、θ2、θ3的取值分别为0.5、0.5、0.25。

45、进一步的,步骤①中所述的yuv视频为符合hdr10标准的10bit位深的视频;步骤③-5中所述的原有的编码平台为vtm17.0。


技术特征:

1.一种基于感知优化的hdr视频编码方法,包括以下步骤:

2.根据权利要求1所述的一种基于感知优化的hdr视频编码方法,其特征在于步骤②中,得到感知无损视频的具体操作过程如下:

3.根据权利要求1所述的一种基于感知优化的hdr视频编码方法,其特征在于步骤③-2中,得到当前帧中每个待编码的ctu的时空显著度的具体操作过程如下:

4.根据权利要求3所述的一种基于感知优化的hdr视频编码方法,其特征在于步骤③-3的具体操作过程如下:

5.根据权利要求3所述的一种基于感知优化的hdr视频编码方法,其特征在于步骤③-2-9中,θ1、θ2、θ3的取值分别为0.5、0.5、0.25。

6.根据权利要求1所述的一种基于感知优化的hdr视频编码方法,其特征在于步骤①中,yuv视频为符合hdr10标准的10bit位深的视频;步骤③-5中所述的原有的编码平台为vtm17.0。


技术总结
本发明公开了一种基于感知优化的HDR视频编码方法,特点是获取待编码的HDR视频,通过感知量化传递函数将待编码的HDR视频转换为YUV视频;将YUV视频逐帧输入至感知无损预处理模型中进行感知无损重建,得到感知无损视频;将感知无损视频逐帧输入至嵌有基于视觉感知显著度的CTU级量化模型的编码平台中进行编码压缩,得到编码压缩后的HDR视频,完成HDR视频编码;优点是先通过感知量化传递函数将待编码的HDR视频转换为YUV视频,再通过感知无损预处理模型对YUV视频进行感知无损重建,构建基于视觉感知显著度的CTU级量化模型,用于指导CTU级的比特分配,使得编码过程中不仅消除了HDR视频自身的视觉感知冗余,提高了编码性能,同时使得编码码率分配均匀,提高了编码效率。

技术研发人员:朱仲杰,孙嘉敏,白永强,崔伟锋,於至婧,王玉儿
受保护的技术使用者:浙江万里学院
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-15584.html

最新回复(0)