使用具有模板匹配的MVD合并模式来改进视频编解码的方法和装置与流程

专利2025-02-25 38

本公开总体上涉及使用合并模式运动向量差(merge mode motion vectordifference，简称mmvd)编解码工具的视频编解码系统。具体地，本发明涉及向mmvd设计添加灵活性以提高编解码性能。

背景技术：

1、多功能视频编解码(versatile video coding，简称vvc)是由itu-t视频编解码专家组(video coding experts group，简称vceg)和iso/iec运动图像专家组(movingpicture experts group，简称mpeg)的联合视频专家组(joint video experts team，简称jvet)开发的最新国际视频编解码标准。该标准已作为iso标准于2021年2月发布：iso/iec23090-3:2021，信息技术-沉浸式媒体的编解码表示-第3部分：多功能视频编解码。vvc是基于其上一代高效视频编解码(high efficiency video coding，简称hevc)通过添加更多的编解码工具，来提高编解码效率以及处理包括三维(3-dimensional，简称3d)视频信号在内的各种类型的视频源。

2、图1a示出结合循环处理的示例适应性帧间/帧内视频编解码系统。对于帧内预测，预测数据基于当前图片中先前编解码的视频数据得出。对于帧间预测112，运动估计(motion estimation，简称me)在编码器端执行以及运动补偿(motion compensation，简称mc)基于me的结果执行以提供从其他图片和运动数据导出的预测数据。开关114选择帧内预测110或帧间预测112，以及选择的预测数据被提供至加法器116以形成预测误差，也被称为残差。然后预测误差由变换(transform，简称t)118接着量化(quantization，简称q)120处理。然后经变换和量化的残差由熵编码器122进行编码，以包括在对应于压缩视频数据的视频比特流中。然后，与变换系数相关联的比特流与辅助信息(诸如与帧内预测和帧间预测相关联的运动和编码模式等辅助信息)和其他信息(与应用于底层图像区域的环路滤波器相关联的参数等)打包。如图1a所示，与帧内预测110、帧间预测112和环路滤波器130相关联的辅助信息被提供至熵编码器122。当帧间预测模式被使用时，一个或多个参考图片也必须在编码器端重构。因此，经变换和量化的残差由逆量化(inverse quantization，简称iq)124和逆变换(inverse transformation，简称it)126处理以恢复残差。然后残差在重构(rec)128被加回到预测数据136以重构视频数据。重构的视频数据可被存储在参考图片缓冲器134中以及用于其他帧的预测。

3、如图1a所示，输入的视频数据在编码系统中经过一系列处理。由于一系列处理，来自rec128的重构视频数据可能会受到各种损害。因此，在重构视频数据被存储在参考图片缓冲器134中之前，环路滤波器130通常被应用于重构视频数据，以提高视频质量。例如，去块滤波器(deblocking filter,简称df)、样本适应性偏移(sample adaptive offset，简称sao)和适应性环路滤波器(adaptive loop filter，简称alf)可被使用。环路滤波器信息可能需要被合并到比特流中，以便解码器可以正确地恢复所需的信息。因此，环路滤波器信息也被提供至熵编码器122以结合到比特流中。在图1a中，在重构样本被存储在参考图片缓冲器134中之前，环路滤波器130被应用于重构的视频。图1a中的系统旨在说明典型视频编码器的示例结构。它可以对应于高效视频编解码(high efficiency video coding，简称hevc)系统、vp8、vp9、h.264或vvc。

4、如图1b所示的解码器可以使用与编码器相似或部分相同的功能块，除了变换118和量化120，因为解码器只需要逆量化124和逆变换126。解码器使用熵解码器140而不是熵编码器122来将视频比特流解码为量化的变换系数和所需的编解码信息(例如，ilpf信息、帧内预测信息和帧间预测信息)。解码器端的帧内预测150不需要执行模式搜索。相反，解码器只需要根据从熵解码器140接收到的帧内预测信息生成帧内预测。此外，对于帧间预测，解码器只需要根据从熵解码器140接收到的帧内预测信息执行运动补偿(mc 152)无需运动估计。

5、根据vvc，输入图片被划分为称为编解码树单元(coding tree unit，简称ctu)的非重迭方形块区域，类似于hevc。每个ctu可被划分为一个或多个较小尺寸的编解码单元(coding unit，简称cu)。生成的cu分区可以是正方形或矩形。此外，vvc将ctu划分为预测单元(prediction unit，简称pu)作为一个单元来应用预测处理，例如帧间预测、帧内预测等。

6、vvc标准合并了各种新的编解码工具以进一步提高超过hevc标准的编解码效率。在各种新的编解码工具中，与本发明相关的一些编解码工具综述如下。例如，具有mvd的合并模式(mmvd)技术重新使用与vvc中相同的合并候选，以及可以通过运动向量表达方法进一步扩展所选择的候选。降低mmvd复杂性的技术需要被开发。

技术实现思路

1、一种使用具有运动向量差的合并(merge with motion vector difference，简称mmvd))模式进行视频编解码的方法和装置被公开。根据该方法，与以双向预测模式编解码的当前块相关联的输入数据被接收，其中输入数据包括在编码器侧待编码的当前块的像素数据或与当前块相关联的在解码器侧待解码的已编码数据。当前块的第一扩展合并运动向量(motion vector，简称mv)被决定，其中第一扩展合并mv通过将第一组偏移中的第一选定偏移添加到基础mv来导出。第一扩展合并mv是否应用于l0中的第一参考图片(参考列表0)或l1中的第二参考图片(参考列表1)由解码器侧隐式地决定，或者第一扩展合并mv被应用于l0中的第一参考图片，以及第二扩展合并mv被应用于l1中的第二参考图片。当前块通过使用包括第一扩展合并mv的运动信息来进行编码或解码。

2、在一个实施例中，第一扩展合并mv是否被应用于l0或l1中的第一参考图片根据一匹配成本来决定，该匹配成本是在当前块的一个或多个第一相邻区域与l0或l1中第一参考块的一个或多个第二相邻区域之间测量的匹配成本。当前块的该一个或多个第一相邻区域包括当前块的第一顶部相邻区域和第一左侧相邻区域，以及第一参考块的该一个或多个第二相邻区域包括该第一参考块的第二顶部相邻区域和第二左侧相邻区域。如果第一扩展合并mv被应用于l0(l1)中的第一参考图片，则仅对l0(l1)中的第一参考图片计算匹配成本，以及忽略l1(l0)中的第一参考图片。

3、在一个实施例中，与第一扩展合并mv和基础mv之间的运动向差(motion vectordifference，简称mvd)有关的一个或多个语法在编码器侧发送或者在解码器侧解析。当第一扩展合并mv被应用到l0和l1中之一的第一参考图片时，l0和l1中的另一个中的第二参考图片使用在编码器侧发送或在解码器侧解析的经缩放的mvd或经裁剪和缩放的mvd。

4、在一个实施例中，第二扩展合并mv通过将从第二组偏移中选择的第二偏移添加到基础mv来导出。在一个实施例中，根据与第一扩展合并mv候选集合和第二扩展合并mv候选集合相关联的匹配成本，与第一扩展合并mv候选集合的一部分相对应的m个第一扩展合并mv候选被选择，以及与第二扩展合并mv候选集合的一部分相对应的n个第二扩展合并mv候选被选择，以及其中m和n是正整数。mxn个联合扩展合并mv候选可以从m个第一扩展合并mv候选和n个第二扩展合并mv候选生成。然后mxn个联合扩展合并mv候选根据匹配成本进行重新排序。第一扩展合并mv和第二扩展合并mv可以根据匹配成本从mxn个联合扩展合并mv候选中的k个最佳联合扩展合并mv候选中选择，以及k小于mxn。在一个实施例中，m和n对应于预定数量，基于匹配成本分布适应性地变化的数量，基于具有cu级权重的双向预测(bi-prediction with cu-level weights，简称bcw)索引适应性地变化的数量，或显式地发送的值。

5、根据另一种方法，当前块的扩展合并运动向量(motion vector，简称mv)通过将第一组偏移中所选择的偏移添加到基础mv来决定，以及所选择的偏移由mmvd(合并mv差)来指示，以及mmvd在编码器侧发送或在解码器侧解析。扩展的合并mv始终应用于参考帧，该参考帧与bcw(具有cu级权重的双向预测)的较高权重相关联。

技术特征：

1.一种使用具有运动向量差的合并模式的视频编解码方法，所述方法包括：

2.根据权利要求1所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，根据在所述当前块的一个或多个第一相邻区域与所述参考列表l0或所述参考列表l1中的第一参考块的一个或多个第二相邻区域之间测量的匹配成本来决定所述第一扩展合并运动向量是否被应用于所述参考列表l0或所述参考列表l1中的所述第一参考图片。

3.根据权利要求2所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，所述当前块的所述一个或多个第一相邻区域包括所述当前块的第一顶部相邻区域和第一左侧相邻区域，以及所述第一参考块的所述一个或多个第二相邻区域包括第二顶部相邻区域和所述第一参考块的第二左侧相邻区域。

4.根据权利要求2所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，如果所述第一扩展合并运动向量被应用于所述参考列表l0(l1)中的所述第一参考图片，仅对所述参考列表l0(l1)中的所述第一参考图片计算所述匹配成本，而对所述参考列表l1(l0)中的所述第一参考图片忽略所述匹配成本。

5.根据权利要求1所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，与所述第一扩展合并运动向量和所述基础运动向量之间的运动向量差值相关的一个或多个语法在所述编码器侧发送或者在所述解码器侧解析。

6.根据权利要求5所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，当所述第一扩展合并运动向量被应用于所述参考列表l0和l1中的一个参考列表中的所述第一参考图片时，所述参考列表l0和l1中的另一个参考列表中的所述第二参考图片使用在所述编码器侧发送的或在所述解码器侧解析的经缩放的运动向量差值。

7.根据权利要求5所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，当所述第一扩展合并运动向量被应用于所述参考列表l0和l1中的一个中参考列表的所述第一参考图片时，所述参考列表l0和l1中的另一个参考列表中的所述第一参考图片使用在所述编码器侧发送的或在所述解码器侧解析的经剪裁和缩放的运动向量差值。

8.根据权利要求1所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，所述第二扩展合并运动向量通过将第二组偏移中的第二选定偏移添加到所述基础运动向量来导出。

9.根据权利要求8所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，根据与第一扩展合并运动向量候选集和第二扩展合并运动向量候选集相关联的多个匹配成本，与所述第一扩展合并运动向量候选集的一部分相对应的m个第一扩展合并运动向量候选被选择，以及与所述第二扩展合并运动向量候选集的一部分相对应的n个第二扩展合并mv候选被选择。

10.根据权利要求9所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，mxn个联合扩展合并运动向量候选从m个第一扩展合并运动向量候选和n个第二扩展合并运动向量候选生成，以及其中mxn个联合扩展合并运动向量候选根据所述多个匹配成本进行重新排序。

11.根据权利要求10所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，所述第一扩展合并运动向量和所述第二扩展合并运动向量根据所述多个匹配成本从mxn个联合扩展合并运动向量候选中的k个最佳联合扩展合并运动向量候选中选择，以及k小于mxn。

12.根据权利要求11所述的使用具有运动向量差的合并模式的视频编解码方法，其特征在于，m和n对应于预定数、基于匹配成本分布适应性地变化的数、基于具有编解码单元级权重的双向预测索引适应性地变化的数、或显式发送的值。

13.一种使用具有运动向量差的合并模式的视频编解码装置，所述装置包括一个或多个电子器件或处理器，被布置为：

14.一种使用具有运动向量差的合并模式的编解码方法，所述方法包括：

15.一种使用具有运动向量差的合并模式的编解码装置，所述装置包括一个或多个电子器件或处理器，被布置为：

技术总结
一种使用MMVD模式进行视频编解码的方法和装置被公开。根据该方法，当前块的第一扩展合并MV被决定，其中第一扩展合并MV通过将第一组偏移中的第一选定偏移添加到基础MV来导出，以及第一扩展合并MV是否被应用于L0中的第一参考图片或L1中的第二参考图片由解码器侧隐式地决定，或者第一扩展合并MV被应用于L0中的第一参考图片以及第二扩展合并MV被应用于L1中的第二参考图片。当前块通过使用包括第一扩展合并MV的运动信息进行编码或解码。根据另一种方法，单独的MVD被用于不同参考列表中的参考图片。

技术研发人员：邱世钧,徐志玮,陈庆晔,庄子德,黄毓文
受保护的技术使用者：联发科技股份有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-21994.html