本发明属于视频感知编码优化领域,具体涉及一种视频压缩的多层级全rgb恰可察觉感知编码失真预测方法。
背景技术:
1、视频数据爆炸式增长给数据压缩带来了巨大挑战,视频编码技术的持续优化是解决该挑战的有效途径。视觉感知机制揭示了人眼视觉系统(human visual system,hvs)对压缩视频中失真的感知能力,对压缩视频中可感知失真的有效度量是指导视频感知编码优化的前提之一。
2、恰可察觉失真(just noticeable distortion,jnd)建模方法,定义了hvs可察觉的最小失真并将其应用于视频感知编码优化中,有效提高了视频压缩效率。对于一系列不同质量的压缩视频,人类视觉系统只能感知到有限的质量层级。在同个质量层级中,不同压缩视频虽然失真不同但主观质量无明显差别。因此,同质量层级下最大的编码失真可以定义为该质量层级的恰可感知编码失真(just noticeable coding distortion,jncd)。jncd的有效预测可以用于指导相同质量层级约束下的编码优化,实现最大化码率节省。
3、目前,对jncd预测模型的研究尚处于起步阶段,构建了不同编码模式的压缩视频数据集。由于jncd的预测涉及视觉感知机制和视频编码机制,相关研究进展较为缓慢,提出的预测模式普遍仅面向第一质量层级的单色彩通道的视频jncd预测。
4、恰可察觉失真预测一般分为像素域预测模型和变换域预测模型,传统jnd模型主要依赖手工特征,通过非线性融合方式进行建模,普遍存在阈值高估或低估问题。同时,日常生活中的图像和视频通常是经过压缩的,其中的噪声主要来源于编码失真。由于视频编码过程及其复杂,jnd建模过程普遍没有考虑视频编码机制,jnd预测模型在预测感知编码失真方面精度普遍不高。
5、针对恰可察觉编码失真预测问题,基于发布的数据集,探索基于神经网络的jncd预测模型。研究表明,hvs对于一系列不同质量的压缩视频仅能察觉出有限的质量层次。因此,多层级jncd的预测成为该领域研究热点。目前,多层级jncd预测问题通常转化为用户满意度(satisfied-user-ratio,sur)的预测问题,通过构建sur预测模型映射推导出图像和视频的jncd阈值。但是,现有的jncd或sur预测模型普遍针对彩色图像,并不能直接用于预测各颜色分量jncd阈值,导致现有模型在指导视频多通道感知编码存在技术缺陷。
技术实现思路
1、针对该问题,本发明提出一种视频压缩的多层级全rgb恰可察觉感知编码失真预测方法,为视频编码提供感知失真估计,指导视频编码以提高感知视频压缩效率。
2、多通道jncd阈值预测涉及视频编码机制和多通道视觉感知机制,如何分析和提取多通道视觉感知特征是本发明面临的首要技术问题。其次,如何设计jncd预测模型以满足多层级、多通道阈值预测是本发明需要解决的另外一个技术问题。
3、多通道视觉感知特征分析:考虑到亮度分量包含大部分视频信息,针对亮度分量提取亮度自适应掩蔽、熵掩蔽以及显著性三种视觉特征;对比掩蔽是决定视频jncd阈值的决定性视觉特征,因此针对rgb三通道分别提取对比掩蔽效应。
4、rgb多层级jncd预测:在多通道视觉感知特征分析及提取基础上,设计基于自编码器为骨干网络的jncd预测模型,该模型以三通道视频以及六种视觉感知特征为网络输入,以自编码器为特征提取器,以图像梯度以及l1范数的加权和为loss函数训练rgb-jncd-net预测网络。
5、一种视频压缩的多层级全rgb恰可察觉感知编码失真预测方法,包括以下步骤:
6、s1、获取公开视频集,将视频集中的视频处理为rgb视频,获取rgb视频感知编码失真标签
7、s2、基于rgb视频,提取视觉感知特征。
8、s3、构建rgb-jncd-net预测模型,视觉感知特征通过rgb-jncd-net预测模型,输出编码失真预测结果。
9、进一步的,步骤s2所述提取视觉感知特征包括亮度自适应掩蔽特征图、视觉注意图、空时域熵掩蔽图和rgb三通道对比掩蔽特征图,具体过程如下:
10、s2.1、亮度自适应掩蔽特征图mlum:
11、
12、其中b(x,y)表示在视频帧(x,y)处的附近n×n区域的平均背景亮度。
13、s2.2、视觉注意图mfd:视频帧通过poolnet网络模型,获取视觉注意图mfd。s2.3、空时域熵掩蔽图mem:
14、mem(x,y)=θ·|o(x,y)-p(x,y)|
15、其中,o(x,y)表示原始视觉信号在(x,y)处的像素值,p(x,y)是自回归预测模型在对应位置处的预测视觉信号,θ是一个常数。
16、s2.4、rgb三通道对比掩蔽特征图i∈(r,g,b),分别代表红、绿、蓝三通道的对比掩蔽特征图,通过拟合亮度对比度得到三通道对比掩蔽特征图:
17、
18、αi、βi为当前通道下的拟合参数,conti(x,y)为该通道当下位置附近m×m区域的对比度。
19、本发明有益效果:将本发明所得出的rgb-jncd图应用到视频编码中,在编码过程中消除这种恰克察觉的失真,可以在不影响感知质量的同时,在运行效率上平均降低8.1%的时间成本,实现高效准确的失真编码预测。
1.一种视频压缩的多层级全rgb恰可察觉感知编码失真预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的视频压缩的多层级全rgb恰可察觉感知编码失真预测方法,其特征在于,所述获取感知编码失真标签具体为:每个视频在rgb三通道各有51个压缩版本,对应着1-51的视频编码量化参数qp;视频存在3个质量层级,每个层级均存在一个恰可感知qp,将各层级各色度通道的恰可感知qp对应的编码失真作为当前视频质量层级当前通道的感知编码失真标签
3.根据权利要求1所述的视频压缩的多层级全rgb恰可察觉感知编码失真预测方法,其特征在于,所述提取视觉感知特征包括亮度自适应掩蔽特征图、视觉注意图、空时域熵掩蔽图和rgb三通道对比掩蔽特征图,具体过程如下:
4.根据权利要求3所述的视频压缩的多层级全rgb恰可察觉感知编码失真预测方法,其特征在于,所述rgb-jncd-net预测模型包括输入层、e-d自编码器和损失函数三个部分,具体如下: