融合时空注意力机制的监控视频实时超分重建方法及系统

专利2025-04-19  36


本发明涉及监控视频处理,具体涉及融合时空注意力机制的监控视频实时超分重建方法及系统。


背景技术:

1、近年来,随着电子科技的飞速进步和社会安全需求的持续增加,视频监控技术已经迅速发展并广泛应用于多个领域。现代视频监控系统不仅仅局限于传统的安防用途,它们还被集成到了城市管理、交通监控、商业活动以及教育设施中,以提升运营效率和安全性。这种技术的普及受到了高性能计算硬件的支持,使得视频监控能够实现实时数据处理和高清晰度图像捕捉,从而满足了不断变化的技术标准和社会需求。

2、视频监控技术的广泛应用显著提升了社会的安全和效率。它使我们能够全天候监视关键地点,减少人力需求,节省成本,并实时记录和回放重要事件,然而为了确保监控效果,需要高质量的图像和视频来满足安全监控的需求。目前有一些传统的超分方法可以提高视频监控的视频质量,如双线性插值和双三次插值,这些方法实现简单,计算效率高,便于在不具备高性能处理器的系统上部署;与需要大量数据训练的深度学习模型相比,传统方法不需要复杂的训练过程,因此对硬件资源的需求相对较低,这使得它们更适合在资源受限的环境中使用;由于计算过程较为简单,传统超分辨率技术可以更快地处理视频流,能够支持实时视频监控系统的需求。但我们仍面临以下问题:

3、1)特征提取局限。传统技术通常依赖较为简单的特征提取方法,如基本的卷积层,这限制了它们在处理复杂场景和捕捉细节上的能力。

4、2)缺乏有效的时间维度处理。很多传统方法未能有效整合视频的时间维度,导致在动态场景下的性能不足,无法有效处理视频中的运动模糊和时间连续性问题。

5、3)重建质量不足。传统方法在高清视频重建时常常无法同时优化分辨率提升与视觉质量,尤其是在处理监控视频这种对细节敏感度高的场景时。

6、因此,迫切需要研究更加有效的超分辨技术增强的视频监控方法,在满足监控图像和视频质量的同时,打破特征提取局限,保证实时视频的超分,尤其是在视频监控领域的应用中,显著提升视频超分辨率的性能和实用性,展现出传统技术不可比拟的优势。


技术实现思路

1、基于上述背景技术所提出的问题,本发明的目的在于提供融合时空注意力机制的监控视频实时超分重建方法及系统,解决了目前的监控视频实时超分重建存在特征提取局限、缺乏有效的时间维度处理以及重建质量不足的问题。

2、本发明通过下述技术方案实现:

3、本发明第一方面提供了融合时空注意力机制的监控视频实时超分重建方法,包括如下步骤:

4、步骤s1、获取监控视频,对所述监控视频依次进行预处理和帧插值处理,得到视频帧;

5、步骤s2、采用深度可分离卷积网络对所述视频帧进行浅层特征提取,得到浅层特征;

6、步骤s3、确定时间窗口,基于所述时间窗口将所述浅层特征中的2d特征块拓展至3d特征块;

7、步骤s4、采用swinv3 transformer网络对所述3d特征块进行深层特征提取,得到深层特征;

8、步骤s5、将所述浅层特征和所述深层特征进行融合,得到融合特征,利用所述融合特征进行视频重建。

9、在上述技术方案中,采集监控视频,并对所采集的监控视频进行预处理和帧插值处理,预处理的目的在于为后续的超分辨率处理准备清晰、准确的视频数据,帧插值处理的目的在于增加监控视频的帧率,以改善监控视频的分辨率和平滑度。

10、由于目前通常依赖较为简单的特征提取方法对监控视频进行特征提取,如基本的卷积层,这限制了它们在处理复杂场景和捕捉细节上的能力。为此,本方法提出了先进行浅层特征提取,再进行深层特征提取,通过将浅层特征与深层特征进行融合增强了对监控视频中细节的捕捉能力。其中,浅层特征提取是为了捕获视频帧中如颜色、纹理、边缘等基本信息,在本方法中使用深度可分离卷积网络对(depthwise separable convolutionalneural networks,ds-cnn)视频帧进行浅层特征提取,在视频监控领域,由于实时性的要求,使用ds-cnn可以有效减轻计算负担,提高处理速度,更适合实时视频流的处理,ds-cnn的轻量化设计也适合部署在边缘设备上,如安全监控摄像头,这有助于在数据源近端进行快速视频分析。

11、目前视频数据缺乏有效的时间维度处理,很多传统方法未能有效整合视频的时间维度,导致在动态场景下的性能不足,无法有效处理视频中的运动模糊和时间连续性问题。因此,在本方法中,为使得深层特征提取能够处理视频序列中时间连续性,在浅层特征提取后需要对浅层特征进行时间特征整合。考虑到在视频监控中,视频的连续性和相关性相当重要,利用连续帧之间的时间信息来增强视频帧的连续性和一致性,将时间维度的信息融入到视频帧的处理中,这对于提升视频监控系统的动态捕捉能力和整体视频质量至关重要。

12、传统的滑动窗口transformer(swin transformer)主要用来处理图像的空间信息,swinv2transformer是对swin transformer的升级,能够提高图像的处理能力与分辨率,优化的自注意力机制在处理高分辨率图像时,能够更好地进行特征提取和识别,在此基础上本方法提出swinv3 transformer。本方法中的深层特征提取通过swinv3 transformer中引入时间维度,通过修改注意力机制来整合时间信息,可以更准确地捕获时间和空间特征,改善视频的连贯性和视觉效果。

13、在深层特征提取后,将浅层特征和深层特征进行融合,利用融合后的特征图实现从低分辨率的视频帧中重建出高质量的视频输出进而完成高清视频的重建,这个过程不仅提高了视频的视觉质量,也增强了细节的可识别性,对于安全监控等领域尤为重要。

14、在一种可选的实施例中,对所述监控视频依次进行预处理和帧插值处理包括如下步骤:

15、步骤s11、将监控视频解码成连续帧序列,并对所述连续帧序列进行色彩空间转换,利用降噪算法对色彩空间转换后的连续帧序列进行降噪处理,得到连续帧;

16、步骤s12、对所述连续帧进行运动估计,根据运动估计的结果在连续帧之间采用插值算法生成中间帧,并对所述中间帧进行运动补偿,所述连续帧与所述中间帧共同构成视频帧。

17、在一种可选的实施例中,采用深度可分离卷积网络对所述视频帧进行浅层特征提取包括如下步骤:

18、步骤s21、采用滑动窗口技术将所述视频帧分解为数据块,对所述数据块进行归一化处理;

19、步骤s22、将归一化处理后的数据块输入至所述深度可分离卷积网络中进行浅层特征提取;其中,所述深度可分离卷积网络包括两层深度可分离卷积层、池化层和全连接层;

20、所述两层深度可分离卷积层对归一化处理后的数据块进行特征处理,得到特征映射;

21、所述池化层对所述特征映射进行池化处理,得到2d特征块;

22、所述全连接层对所述2d特征块进行特征整合,得到浅层特征。

23、在一种可选的实施例中,所述两层深度可分离卷积层包括第一层卷积核和第二层卷积核;

24、其中,第一层卷积核为3x3的卷积核,第二层卷积核为5x5的卷积核;

25、所述第一层卷积核对归一化处理后的数据块进行特征提取,得到第一特征,使用relu激活函数对所述第一特征进行激活,得到第一特征映射;

26、所述第二层卷积核对所述第一特征映射进行特征提取,得到第二特征,使用relu激活函数对所述第二特征进行激活,得到第二特征映射。

27、在一种可选的实施例中,基于所述时间窗口将所述浅层特征中的2d特征块拓展至3d特征块包括如下步骤:

28、步骤s31、获取视频帧中第t时间帧通过浅层特征提取得到2d特征块ft;

29、步骤s32、基于所述时间窗口获取所述2d特征块ft相邻时间帧的相邻2d特征块;

30、步骤s33、将所述2d特征块ft与所述相邻2d特征块进行堆叠生成3d特征块。

31、在一种可选的实施例中,采用swinv3 transformer网络对所述3d特征块进行深层特征提取包括如下步骤:

32、步骤s41、采用窗口划分技术对所述3d特征块进行窗口分割,得到像素块;

33、步骤s42、所述swinv3 transformer网络包括若干个依次连接的swinv3transformer块,构建时间矩阵,在所述swinv3 transformer块中利用所述时间矩阵对所述像素块进行深层特征提取,得到深层特征;

34、其中,每个swinv3 transformer块与所述深度可分离卷积网络所提取的浅层特征进行残差连接。

35、在一种可选的实施例中,构建时间矩阵包括如下步骤:

36、计算所述视频帧中任意两个时间帧之间的时间差异;

37、将所述时间差异通过映射函数转换为权重值,以所述权重值构建第一矩阵;

38、对所述第一矩阵进行归一化处理,得到时间矩阵。

39、在一种可选的实施例中,在所述swinv3 transformer块中利用所述时间矩阵对所述像素块进行深层特征提取包括如下步骤:

40、所述swinv3 transformer块包括若干个swinv3 transformer层,在所述swinv3transformer层中引入时空联合多头自注意力机制,通过所述时空联合多头自注意力机制对所述像素块进行空间维度和时间维度计算,得到时空特征;其中,所述时空联合多头自注意力机制是通过引入时间矩阵修改自注意力计算公式实现的;

41、所述时空特征经过层归一化和多层感知器进行特征细化,得到深层特征。

42、在一种可选的实施例中,将所述浅层特征和所述深层特征进行融合,得到融合特征,利用所述融合特征进行视频重建包括如下步骤:

43、步骤s51、对所述浅层特征和所述深层特征进行加权计算,得到加权融合特征;

44、步骤s52、使用转置卷积对所述加权融合特征进行上采样,得到上采样视频;

45、步骤s53、利用残差学习机制计算残差映射;

46、步骤s54、将所述残差映射与所述上采样视频进行融合,得到高分辨率视频。

47、本发明第二方面提供了融合时空注意力机制的监控视频实时超分重建系统,包括:

48、采集模块,所述采集模块用于获取监控视频,对所述监控视频依次进行预处理和帧插值处理,得到视频帧;

49、浅层特征提取模块,所述浅层特征提取模块用于采用深度可分离卷积网络对所述视频帧进行浅层特征提取,得到浅层特征;

50、时间特征整合模块,所述时间特征整合模块用于确定时间窗口,基于所述时间窗口将所述浅层特征中的2d特征块拓展至3d特征块;

51、深层特征提取模块,所述深层特征提取模块用于采用swinv3 transformer对所述3d特征块进行深层特征提取,得到深层特征;

52、视频重建模块,所述视频重建模块用于将所述浅层特征和所述深层特征进行融合,得到融合特征,利用所述融合特征进行视频重建。

53、本发明与现有技术相比,具有如下的优点和有益效果:

54、1、先进行浅层特征提取,再进行深层特征提取,通过将浅层特征与深层特征进行融合增强了对监控视频中细节的捕捉能力;

55、2、利用连续帧之间的时间信息来增强视频帧的连续性和一致性,将时间维度的信息融入到视频帧的处理中,提升了视频监控系统的动态捕捉能力和整体视频质量;

56、3、通过swinv3 transformer中引入时间维度,通过修改注意力机制来整合时间信息,可以更准确地捕获时间和空间特征,改善视频的连贯性和视觉效果。


技术特征:

1.融合时空注意力机制的监控视频实时超分重建方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的融合时空注意力机制的监控视频实时超分重建方法,其特征在于,对所述监控视频依次进行预处理和帧插值处理包括如下步骤:

3.根据权利要求1所述的融合时空注意力机制的监控视频实时超分重建方法,其特征在于,采用深度可分离卷积网络对所述视频帧进行浅层特征提取包括如下步骤:

4.根据权利要求3所述的融合时空注意力机制的监控视频实时超分重建方法,其特征在于,所述两层深度可分离卷积层包括第一层卷积核和第二层卷积核;

5.根据权利要求1所述的融合时空注意力机制的监控视频实时超分重建方法,其特征在于,基于所述时间窗口将所述浅层特征中的2d特征块拓展至3d特征块包括如下步骤:

6.根据权利要求1所述的融合时空注意力机制的监控视频实时超分重建方法,其特征在于,采用swinv3 transformer网络对所述3d特征块进行深层特征提取包括如下步骤:

7.根据权利要求6所述的融合时空注意力机制的监控视频实时超分重建方法,其特征在于,构建时间矩阵包括如下步骤:

8.根据权利要求6所述的融合时空注意力机制的监控视频实时超分重建方法,其特征在于,在所述swinv3 transformer块中利用所述时间矩阵对所述像素块进行深层特征提取包括如下步骤:

9.根据权利要求1所述的融合时空注意力机制的监控视频实时超分重建方法,其特征在于,将所述浅层特征和所述深层特征进行融合,得到融合特征,利用所述融合特征进行视频重建包括如下步骤:

10.融合时空注意力机制的监控视频实时超分重建系统,其特征在于,包括:


技术总结
本发明公开了融合时空注意力机制的监控视频实时超分重建方法及系统,先进行浅层特征提取,再进行深层特征提取,通过将浅层特征与深层特征进行融合增强了对监控视频中细节的捕捉能力;利用连续帧之间的时间信息来增强视频帧的连续性和一致性,将时间维度的信息融入到视频帧的处理中,提升了视频监控系统的动态捕捉能力和整体视频质量;通过SwinV3Transformer中引入时间维度,通过修改注意力机制来整合时间信息,可以更准确地捕获时间和空间特征,改善视频的连贯性和视觉效果。

技术研发人员:刘慧胜,冉泳屹,贺云展,张纪强,雒江涛
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23600.html