一种基于CNN-Transformer混合模型的压缩视频质量提升方法

专利2026-02-18 3

本发明涉及压缩视频质量提升技术，具体涉及一种基于cnn-transformer混合模型的压缩视频质量提升方法，属于图像通信领域。

背景技术：

1、随着多媒体行业日新月异的发展，消费者对视频质量的要求越来越高。由于对长视频、短视频、直播等其它视频流的需求，每天有大量的视频数据需要通过带宽有限的互联网传输。对此，已经提出了许多视频压缩算法，如hevc等。hevc基于块对视频进行压缩编码，在压缩时会引入各种压缩伪影，从而显著降低视频质量并影响用户的观看体验。目前，主流的压缩视频质量提升方法主要分为环路滤波方法与后处理方法。其中，环路滤波方法作用在视频编解码器的内部，受限于编解码器整体复杂度要求，环路滤波的方法不能设计地过于复杂，提升性能有限。后处理方法是在视频编解码标准重建出压缩视频后，再对其进行质量提升，因此不改变视频编解码结构，限制较少，性能相对更好。

2、随着深度学习的发展，基于cnn的方法已被广泛用于压缩视频质量的增强，并取得了显著的效果。这些cnn算法根据使用的帧数可分为单帧方法和多帧方法。单帧算法单独处理每个视频帧，没有利用相邻视频帧的时间信息。多帧算法对此进行改善，同时利用视频的空域信息和时域信息。但是由于cnn的固有局限性，卷积过程中感受野受到限制，难以对相关信息进行长程依赖建模。近年来兴起的transformer模型，其独特的自注意力机制可以有效获取全局信息。

3、因此，本发明拟研究一种结合cnn和transformer各自特点的全新的压缩视频质量提升算法。

技术实现思路

1、针对cnn在压缩视频质量提升方向上的不足，本发明旨在提出一种基于cnn-transformer混合模型的压缩视频质量提升方法。

2、本发明所提出的一种基于cnn-transformer混合模型的压缩视频质量提升方法，主要包括以下操作步骤：

3、（1）将压缩视频序列输入至基于cnn的特征初始处理模块得到融合了空时信息的特征帧。

4、（2）将（1）得到的特征帧输入至基于transformer的特征深度处理模块得到进一步对齐融合后的特征帧。

5、（3）将（2）的输出输入进重建模块，最后得到质量提升后的压缩视频序列。

6、具体地，所示步骤（1）中，假设某压缩视频为，由 n帧组成，即。当提升 t（ t∈[1,n]）时刻的目标帧的质量时,选择其相邻的前两帧，与后两帧，作为参考帧，以获取时域参考信息。将在通道维度上进行“contcatenate”操作。这个过程由式（1-1）表示。

7、

8、随后将输入进如图1所示的特征初步处理模块，该模块包括一个u-net网络，一个可变形卷积层，一个常规卷积层。u-net网络的结构如图2所示，其作用是预测出相邻帧间的运动偏移量。在u-net网络的开端，我们使用常规卷积层对进行特征提取。此外，该网络主要由三个连续的下采样卷积层和三个连续的上采样反卷积层组成。下采样和上采用的目的是通过多尺度扩大卷积层的感受野，以便更快地获取特征。最后用一个常规卷积层生成预测的运动偏移量。在u-net网络中，常规卷积层步长设置为1，卷积大小为，线性整流单元（relu）作为激活函数。下采样层的卷积步长为2，卷积大小为。上采样层的卷积步长为2，卷积大小为。此外，下采样层和上采样层中相同大小的输出特征通过跳跃连接相拼接，以复用特征并加快网络的收敛速度。u-net的作用过程如式（1-2）所示。

9、

10、其中，表示u-net网络。

11、如图 1 所示，在 u-net 网络之后使用卷积核大小为、步长为 1 的可变形卷积层进行进一步的输入处理。

12、

13、

14、其中，表示经过特征初步处理模块输出的融合特征图，表示可变形卷积过程。

15、随后，使用卷积核大小为3x3的常规卷积层进一步处理。上述过程可以用公式（1-4）表示。

16、

17、其中表示通过常规卷积层处理后得到的增强特征。表示常规卷积层作用过程。

18、接着如所示步骤（2），将输入进特征深度处理模块。此模块的作用方式如下所述。

19、特征深度处理模块中的transformer块结构如图3所示。

20、结合图1和图3，是第m个transformer块的第n个swinv2-transformer的输出。

21、

22、其中，表示第m个transformer块的第n个swinv2-transformer的作用过程。

23、transformer块的输出如式(1-6)所示。

24、

25、其中，表示第m个transformer块的输入，表示第m个transformer块中的卷积层的作用过程。

26、对于transformer块，其中每一层transformer的输入和输出可表示如下：

27、

28、其中表示第m个transformer块的作用过程。

29、特征深度处理模块的输出可由下式表示：

30、

31、其中代表堆叠的transformer块之后的卷积层的作用过程。

32、最后，如步骤（3）所述，我们将与相加记作作为重建模块的输入。我们的重建模块由一堆卷积核大小为3x3步长为1的卷积层组成，除了最后一层外，每个卷积层后面都有一个线性整流单元作为激活函数。重建模块的作用过程如下所示：

33、

34、

35、其中表示重建模块的作用过程，代表生成的增强帧的残差，代表最终生成的增强帧。针对cnn在压缩视频质量提升方向上的不足，本发明旨在提出一种基于cnn-transformer混合模型的压缩视频质量提升方法。

36、本发明所提出的一种基于cnn-transformer混合模型的压缩视频质量提升方法，主要包括以下操作步骤：

37、（1）将压缩视频序列输入至基于cnn的特征初始处理模块得到融合了空时信息的特征帧。

38、（2）将（1）得到的特征帧输入至基于transformer的特征深度处理模块得到进一步对齐融合后的特征帧。

39、（3）将（2）的输出输入进重建模块，最后得到质量提升后的压缩视频序列。

40、具体地，所示步骤（1）中，假设某压缩视频为，由 n帧组成，即。当提升 t（ t∈[1,n]）时刻的目标帧的质量时,选择其相邻的前两帧，与后两帧，作为参考帧，以获取时域参考信息。将在通道维度上进行“contcatenate”操作。这个过程由式（1-1）表示。

41、

42、随后将输入进如图1所示的特征初步处理模块，该模块包括一个u-net网络，一个可变形卷积层，一个常规卷积层。u-net网络的结构如图2所示，其作用是预测出相邻帧间的运动偏移量。在u-net网络的开端，我们使用常规卷积层对进行特征提取。此外，该网络主要由三个连续的下采样卷积层和三个连续的上采样反卷积层组成。下采样和上采用的目的是通过多尺度扩大卷积层的感受野，以便更快地获取特征。最后用一个常规卷积层生成预测的运动偏移量。在u-net网络中，常规卷积层步长设置为1，卷积大小为，线性整流单元（relu）作为激活函数。下采样层的卷积步长为2，卷积大小为。上采样层的卷积步长为2，卷积大小为。此外，下采样层和上采样层中相同大小的输出特征通过跳跃连接相拼接，以复用特征并加快网络的收敛速度。u-net的作用过程如式（1-2）所示。

43、

44、其中，表示u-net网络。

45、如图 1 所示，在 u-net 网络之后使用卷积核大小为、步长为 1 的可变形卷积层进行进一步的输入处理。

46、

47、

48、其中，表示经过特征初步处理模块输出的融合特征图，表示可变形卷积过程。

49、随后，使用卷积核大小为3x3的常规卷积层进一步处理。上述过程可以用公式（1-4）表示。

50、

51、其中表示通过常规卷积层处理后得到的增强特征。表示常规卷积层作用过程。

52、接着如所示步骤（2），将输入进特征深度处理模块。此模块的作用方式如下所述。

53、特征深度处理模块中的transformer块结构如图3所示。

54、结合图1和图3，是第m个transformer块的第n个swinv2-transformer的输出。

55、

56、其中，表示第m个transformer块的第n个swinv2-transformer的作用过程。

57、transformer块的输出如式(1-6)所示。

58、

59、其中，表示第m个transformer块的输入，表示第m个transformer块中的卷积层的作用过程。

60、对于transformer块，其中每一层transformer的输入和输出可表示如下：

61、

62、其中表示第m个transformer块的作用过程。

63、特征深度处理模块的输出可由下式表示：

64、

65、其中代表堆叠的transformer块之后的卷积层的作用过程。

66、最后，如步骤（3）所述，我们将与相加记作作为重建模块的输入。我们的重建模块由一堆卷积核大小为3x3步长为1的卷积层组成，除了最后一层外，每个卷积层后面都有一个线性整流单元作为激活函数。重建模块的作用过程如下所示：

67、

68、

69、其中表示重建模块的作用过程，代表生成的增强帧的残差，代表最终生成的增强帧。

技术特征：

1.一种基于cnn-transformer混合模型的压缩视频质量提升方法，其特征在于，根据cnn和transformer的优点和不足，搭建一种结合空时域信息的压缩视频质量提升方法的整体框架，其步骤如下：

技术总结
本发明公布了一种基于CNN‑Transformer混合模型的压缩视频质量提升方法，主要包括以下步骤：首先通过特征初步处理模块来有效地利用视频相邻帧间的空时相关性，并提取具有压缩视频空时域信息的融合特征，然后将融合后的特征输入至特征深度处理模块得到增强特征，最后将增强特征输入进重建模块最终得到增强后的视频帧。实验结果表明，本发明方法能够有效地抑制视频的压缩效应，提升视频质量。

技术研发人员：熊淑华,李浩,何海波,吴晓红,滕奇志,何小海
受保护的技术使用者：四川大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-29883.html