从卷帘快门图像恢复高帧率全局快门视频的方法

专利2023-07-18  101



1.本发明属于图像和视频合成技术领域,涉及一种从卷帘快门图像恢复高帧率全局快门视频的方法,具体涉及一种高效的高帧率全局快门视频恢复方法。


背景技术:

2.图像传感器一般根据其结构类型可被分为ccd(charge-coupled device,电荷耦合器件)图像传感器和cmos(complementary metal oxide semiconductor,互补金属氧化物场效应管)图像传感器两大类。从90年代开始,cmos图像传感技术在业内得到重视并获得了大量的研发资源。近年来,cmos图像传感器已占据了市场的绝对主导地位,基本实现对ccd图像传感器的取代,使用cmos图像传感器的相机装置在无人驾驶、无人机、虚拟现实、增强现实、计算摄影等领域也逐渐得到了较大普及。cmos相机的主要优势可归纳为以下三个方面:1)成本上,cmos图像传感器芯片一般采用适合大规模生产的标准流程工艺,在批量生产时单位成本得以远低于ccd;2)尺寸上,cmos传感器能够将图像采集单元和信号处理单元集到同一块基板上,体积得到大幅缩减,使之非常适用于移动设备和各类小型化设备;3)功耗上,cmos传感器相比于ccd还保持着低功耗和低发热的优势。
3.cmos相机大都采用卷帘式快门工作机制,ccd相机均采用全局式快门方式。全局快门相机通常使用传感器在一瞬间完成整体像素曝光和收集光线进而得到一帧全局快门图像。卷帘快门cmos相机则通过逐行曝光的方式采集图像。传感器通过对场景光线按行扫描导致处于不同行的像素点具有不同的曝光时间,相邻两行之间都会有一定的时间延迟,所有行像素的曝光在极短的时间实现进而获得一幅卷帘快门图像。在实际应用中,摄影相机大多采用卷帘式快门的工作方式,由于其逐行曝光的成像机制,当相机在移动中对所处场景进行拍摄或者拍摄场景中的运动物体时,获得的卷帘快门图像会出现图形倾斜、晃动、扭曲等卷帘快门效应(即“果冻”效应)。这不仅造成了摄影中成像质量的严重退化,而且使得大多数针对全局快门相机模型设计的三维视觉算法变得失效。近些年来,许多研究工作都指出消除卷帘快门效应在实际应用中是极其重要的。
4.经过十几年的长足发展,研究人员在消除卷帘快门效应这个问题上获得了许多卓有成效的成果。尤其是深度神经网络在最近几年被应用到卷帘快门图像校正任务上来,并取得了相较于传统模型方法更为优异的去畸变效果。事实上,当人们在观察两幅连续的卷帘快门图像时,在脑海中能够自动推断出隐藏在任意时刻下的虚拟全局快门图像序列,即高帧率全局快门视频。然而,现有的深度学习方法只能根据输入的卷帘快门图像恢复出一张对应于特定时刻的全局快门图像,还不具备类似于人这样强大的自动推断能力。因此,逆转卷帘快门成像机制来恢复出高帧率高质量全局快门视频对于场景理解、计算摄影、影像娱乐、视频压缩和编辑等实际应用将具有十分重大的意义。


技术实现要素:

5.要解决的技术问题
6.为了避免现有技术的不足之处,本发明提出一种从卷帘快门图像恢复高帧率全局快门视频的方法,提供一种用于从两张连续卷帘快门图像恢复高帧率全局快门视频的方法。
7.技术方案
8.一种从卷帘快门图像恢复高帧率全局快门视频的方法,其特征在于步骤如下:
9.步骤1:将连续两幅分辨率为h
×w×
3的卷帘快门图像输入光流估计网络pwc-net,输出为这两幅卷帘快门图像之间的稠密光流f,其中f的分辨率为h
×w×
2;
10.步骤2:将这两幅卷帘快门图像以及它们之间的稠密光流f一起输入到一个编码器-解码器unet网络,输出为稠密光流f与对应中间扫描线的稠密去畸变流um之间的关联因子图c,其中um的分辨率为h
×w×
2,c的分辨率为h
×w×
1;
11.步骤3:利用位于卷帘快门图像中第κ扫描线的像素x处的关联因子值c(x),显式地计算像素x处相对应于中间扫描线的去畸变流um(x):
12.um(x)=c(x)
×
f(x)
13.其中:c(x)表示取c中对应像素x的关联因子值,f(x)表示取f中对应像素x的光流值;
14.步骤4:使用将对应中间扫描线的去畸变流um(x)显式传播至对应任意扫描线s∈[1,h]的去畸变流us(x);
[0015]
步骤5:对图像中h
×
w个像素x重复步骤3和步骤4,即可得到对应任意扫描线s∈[1,h]的稠密去畸变流us,其中us的分辨率为h
×w×
2;
[0016]
步骤6:根据对应于扫描线s∈[1,h]的稠密去畸变流us,使用前向翘曲技术,将第一幅卷帘快门图像进行变换,进而恢复出与扫描线s∈[1,h]相对应的全局快门图像;
[0017]
步骤7:按照步骤6依次恢复出对应于连续扫描线s=1,2,...,h的全局快门图像序列,最后即可输出高帧率的全局快门视频。
[0018]
有益效果
[0019]
本发明提出的一种从卷帘快门图像恢复高帧率全局快门视频的方法,为了克服现有技术的不足,本发明提出了卷帘快门图像校正问题的内在几何模型:在匀速运动模型下,建模了去除卷帘快门畸变的卷帘快门去畸变流;然后,通过简单的缩放操作建立了连续帧之间的光流和对应于任意扫描线的去畸变流之间的几何联系;进而,建立了对应于不同扫描线的不同去畸变流之间的相互转换机制。本发明方法基于cmos相机获取的连续两帧卷帘快门图像数据,通过将上述的几何模型有机地融合到深度学习网络中,实现本发明目的技术解决方案为:一种从卷帘快门图像恢复高帧率全局快门视频的方法。
附图说明
[0020]
图1是本发明的从卷帘快门图像恢复高帧率全局快门视频方法的流程图。
[0021]
图2是卷帘快门相机和全局快门相机曝光机制的示意图。
[0022]
图3是估计关联因子所使用的码器-解码器(unet)网络架构。
[0023]
图4是由cmos相机获取的连续两帧原始卷帘快门图像。
[0024]
图5是采用本发明方法从图4所示卷帘快门图像提取的全局快门视频图像序列。
具体实施方式
[0025]
现结合实施例、附图对本发明作进一步描述:
[0026]
本发明目的技术解决方案为:一种从卷帘快门图像恢复高帧率全局快门视频的方法。针对cmos相机拍摄的卷帘快门图像,实现从两张连续卷帘快门图像恢复高帧率全局快门视频的效果,通过建立卷帘快门图像校正问题的内在几何模型,提出了一种从卷帘快门图像恢复高帧率全局快门视频的方法。
[0027]
下面结合附图和实验测试结果对本发明进一步说明。
[0028]
以像素x=(x,y)
t
(对应的深度为z)为例,假设相机在成像过程中经历匀速运动(v,ω),像素x处的光流f=[fu,fv]
t
的数学模型可以表示为:
[0029][0030]
这里γ为相机读出率,满足0<γ≤1,f为相机焦距,h为图像的水平扫描线数目,其中
[0031][0032]
表示潜在的卷帘快门时空几何模型,取决于相机运动、相机参数、场景深度和扫描线位置。消去式(1)中的垂直光流分量fv,可以进一步得到:
[0033][0034]
然后,为了得到将卷帘快门图像的第κ扫描线的像素x变换至与第s扫描线所对应的全局快门图像的去畸变流u=[uu,uv]
t
,本发明建立它的模型如下:
[0035][0036]
接下来,基于式(3)和(4),通过简单的缩放操作即可建立去畸变流和光流之间的几何关联方法:
[0037][0038]
这里c∈(-1,1)是关联因子,即
[0039][0040]
由于c的求解涉及复杂的卷帘快门时空几何模型,在本发明中我们通过设计一个高效的深度神经网络对其进行隐式估计。最后,基于式(4),对应于扫描线s1和扫描线s2的两个卷帘快门去畸变流之间的相互转换机制如下:
[0041]
[0042]
因为式(7)仅包含了简单的矩阵运算,所以可以确保高效的传播效率。而且,从式(7)可以看出去畸变流具有强烈的行依赖特性,它的大小和方向均与待校正的目标扫描线紧密相关。
[0043]
综上,式(5)和(7)揭示了卷帘快门图像校正问题的内在几何模型,即式(5)通过简单的缩放操作建立了连续帧之间的光流和对应于任意扫描线的去畸变流之间的几何联系;式(7)建立了对应于不同扫描线的不同去畸变流之间的相互转换机制。通过这些几何模型,可以为从连续两帧卷帘快门图像提取高帧率全局快门视频提供理论保障。如图1所示,本发明的技术方案主要包含如下步骤:
[0044]
步骤1:将连续两幅分辨率为h
×w×
3的卷帘快门图像输入光流估计网络pwc-net,输出为这两幅卷帘快门图像之间的稠密光流f,其中f的分辨率为h
×w×
2;
[0045]
步骤2:将这两幅卷帘快门图像以及它们之间的稠密光流f一起输入到一个编码器-解码器unet网络,输出为稠密光流f与对应中间扫描线的稠密去畸变流um之间的关联因子图c,其中um的分辨率为h
×w×
2,c的分辨率为h
×w×
1;
[0046]
步骤3:利用位于卷帘快门图像中第κ扫描线的像素x处的关联因子值c(x),显式地计算像素x处相对应于中间扫描线的去畸变流um(x):
[0047]
um(x)=c(x)
×
f(x)
[0048]
其中:c(x)表示取c中对应像素x的关联因子值,f(x)表示取f中对应像素x的光流值;
[0049]
步骤4:使用将对应中间扫描线的去畸变流um(x)显式传播至对应任意扫描线s∈[1,h]的去畸变流us(x);
[0050]
步骤5:对图像中h
×
w个像素x重复步骤3和步骤4,即可得到对应任意扫描线s∈[1,h]的稠密去畸变流us,其中us的分辨率为h
×w×
2;
[0051]
步骤6:根据对应于扫描线s∈[1,h]的稠密去畸变流us,使用前向翘曲技术,将第一幅卷帘快门图像进行变换,进而恢复出与扫描线s∈[1,h]相对应的全局快门图像;
[0052]
步骤7:按照步骤6依次恢复出对应于连续扫描线s=1,2,...,h的全局快门图像序列,最后即可输出高帧率的全局快门视频。
[0053]
本发明的有效性可通过以下实验进行进一步说明:
[0054]
(1)网络模型训练
[0055]
本发明在nvidia geforce rtx 2080ti gpu上基于pytorch开展实验,并使用adam优化器来进行网络优化。本发明采用当前比较成熟的光流估计网络(即pwc-net)来估计输入两帧之间的光流,同时使用简单的编码器-解码器(即unet)结构来估计关联因子。unet网络结构如图3所示。在训练阶段仅使用对应于中间扫描线的全局快门图像作监督,在测试阶段可以较为高效地传播至对应于任意扫描线的全局快门图像,即实现卷帘快门逆转。
[0056]
(2)仿真实验结果分析
[0057]
图4展示了两组输入的连续两帧原始卷帘快门图像。可以看出卷帘快门图像呈现出了显著的图形倾斜、晃动、扭曲等卷帘快门失真。使用本发明提供的全局快门视频恢复方法,在图5中自上而下展示了所提取的6帧全局快门视频图像序列。经过测试发现,对于输入分辨率为640
×
480的连续两帧卷帘快门图像,本发明方法可以在1.8秒的时间里高效地恢
复出960张全局快门视频图像序列。综上,本发明方法的有效性和高效性得到了充分的验证,同时能够满足实际的应用需求。

技术特征:
1.一种从卷帘快门图像恢复高帧率全局快门视频的方法,其特征在于步骤如下:步骤1:将连续两幅分辨率为h
×
w
×
3的卷帘快门图像输入光流估计网络pwc-net,输出为这两幅卷帘快门图像之间的稠密光流f,其中f的分辨率为h
×
w
×
2;步骤2:将这两幅卷帘快门图像以及它们之间的稠密光流f一起输入到一个编码器-解码器unet网络,输出为稠密光流f与对应中间扫描线的稠密去畸变流u
m
之间的关联因子图c,其中u
m
的分辨率为h
×
w
×
2,c的分辨率为h
×
w
×
1;步骤3:利用位于卷帘快门图像中第κ扫描线的像素x处的关联因子值c(x),显式地计算像素x处相对应于中间扫描线的去畸变流u
m
(x):u
m
(x)=c(x)
×
f(x)其中:c(x)表示取c中对应像素x的关联因子值,f(x)表示取f中对应像素x的光流值;步骤4:使用将对应中间扫描线的去畸变流u
m
(x)显式传播至对应任意扫描线s∈[1,h]的去畸变流u
s
(x);步骤5:对图像中h
×
w个像素x重复步骤3和步骤4,即可得到对应任意扫描线s∈[1,h]的稠密去畸变流u
s
,其中u
s
的分辨率为h
×
w
×
2;步骤6:根据对应于扫描线s∈[1,h]的稠密去畸变流u
s
,使用前向翘曲技术,将第一幅卷帘快门图像进行变换,进而恢复出与扫描线s∈[1,h]相对应的全局快门图像;步骤7:按照步骤6依次恢复出对应于连续扫描线s=1,2,...,h的全局快门图像序列,最后即可输出高帧率的全局快门视频。

技术总结
本发明涉及一种从卷帘快门图像恢复高帧率全局快门视频的方法,为了克服现有技术的不足,本发明提出了卷帘快门图像校正问题的内在几何模型:在匀速运动模型下,建模了去除卷帘快门畸变的双向卷帘快门去畸变流;然后,通过简单的缩放操作建立了连续帧之间的光流和对应于任意扫描线的去畸变流之间的几何联系;进而,建立了对应于不同扫描线的不同去畸变流之间的相互转换机制。本发明方法基于CMOS相机获取的连续两帧卷帘快门图像数据,通过将上述的几何模型有机地融合到深度学习网络中,可以逆转卷帘快门成像机制,同时实现去卷帘伪影与图像时间超分辨,比较适用于采用CMOS相机的手机拍摄、无人机拍摄、计算摄影等实际应用中。计算摄影等实际应用中。计算摄影等实际应用中。


技术研发人员:戴玉超 樊斌 张志远 郭相
受保护的技术使用者:西北工业大学
技术研发日:2022.06.23
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3995.html

最新回复(0)