一种视频插帧方法、装置、设备及存储介质与流程

专利2026-05-05 9

本发明涉及计算机，尤其涉及一种视频插帧方法、装置、设备及存储介质。

背景技术：

1、在直播视频传输过程中，如果遇到网络条件不稳定的情况，往往会采用降低视频帧率以适应带宽限制。然而，低帧率视频在观看体验上存在明显不同，尤其是在动作变化较快的情况下，视频会出现卡顿和模糊现象。

2、为了提升直播录像的观看质量，后续处理中提高视频帧率显得尤为重要。行业内普遍采用的插帧方法往往依赖于传统的图像处理技术，这些方法在处理复杂场景和快速运动时，容易产生边缘模糊、运动轨迹不连贯等问题，导致视频观感不佳。

技术实现思路

1、本发明提供了一种视频插帧方法、装置、设备及存储介质，以解决基于传统图像处理技术进行视频插帧时产生的边缘模糊、运动轨迹不连贯等问题。

2、根据本发明的一方面，提供了一种视频插帧方法，包括：

3、对视频潜在向量进行目标特征提取，得到前景特征；所述视频潜在向量是待插帧视频在潜在空间的向量表示；

4、对所述视频潜在向量进行背景纹理提取，得到背景特征；

5、基于带滑动窗口的时间注意力层，将噪声潜在向量、所述前景特征以及背景特征进行特征融合，得到融合特征；所述噪声潜在向量是噪声在潜在空间的向量表示；

6、对所述融合特征进行归一化处理，得到插帧后的完整视频向量。

7、根据本发明的另一方面，提供了一种视频插帧装置，包括：

8、前景特征获取模块，用于对视频潜在向量进行目标特征提取，得到前景特征；所述视频潜在向量是待插帧视频在潜在空间的向量表示；

9、背景特征获取模块，用于对所述视频潜在向量进行背景纹理提取，得到背景特征；

10、融合特征获取模块，用于基于带滑动窗口的时间注意力层，将噪声潜在向量、所述前景特征以及背景特征进行特征融合，得到融合特征；所述噪声潜在向量是噪声在潜在空间的向量表示；

11、完整视频确定模块，用于对所述融合特征进行归一化处理，得到插帧后的完整视频向量。

12、根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

13、至少一个处理器；以及

14、与所述至少一个处理器通信连接的存储器；其中，

15、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的视频插帧方法。

16、根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的视频插帧方法。

17、根据本发明的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开任一实施例的视频插帧方法。

18、本发明实施例的技术方案，对视频潜在向量进行目标特征提取，得到前景特征，并对视频潜在向量进行背景纹理提取，得到背景特征，进一步的，基于带滑动窗口的时间注意力层，将噪声潜在向量、前景特征以及背景特征进行特征融合，得到融合特征，最终对融合特征进行归一化处理，得到插帧后的完整视频向量，通过利用diffusion transformer方法对视频帧之间的时间关系进行建模，实现高效、高质量的视频插帧，从而提升视频观看体验。

19、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种视频插帧方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于带滑动窗口的时间注意力层，将噪声潜在向量、所述前景特征以及背景特征进行特征融合，得到融合特征，包括：

3.根据权利要求2所述的方法，其特征在于，将所述第二噪声向量、所述前景特征和背景特征共同输入至带滑动窗口的时间注意力层，得到融合特征中每一帧的注意力分数，包括：

4.根据权利要求1所述的方法，其特征在于，对视频潜在向量进行目标特征提取，得到前景特征，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述目标边界向量，对所述视频潜在向量进行目标控制，得到所述前景特征，包括：

6.根据权利要求1所述的方法，其特征在于，对所述视频潜在向量进行背景纹理提取，得到背景特征，包括：

7.根据权利要求1所述的方法，其特征在于，在对视频潜在向量进行目标特征提取，得到前景特征之前，还包括：

8.一种视频插帧装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的视频插帧方法。

技术总结
本发明公开了一种视频插帧方法、装置、设备及存储介质。视频插帧方法，包括：对视频潜在向量进行目标特征提取，得到前景特征；视频潜在向量是待插帧视频在潜在空间的向量表示；对视频潜在向量进行背景纹理提取，得到背景特征；基于带滑动窗口的时间注意力层，将噪声潜在向量、前景特征以及背景特征进行特征融合，得到融合特征；噪声潜在向量是噪声在潜在空间的向量表示；对融合特征进行归一化处理，得到插帧后的完整视频向量。本发明实施例的技术方案，可以实现高质量视频插帧。

技术研发人员：谢方敏,周峰,郭陟,陈蔚岳
受保护的技术使用者：广州方舟信息科技有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-30801.html