本发明属于三维人体姿态估计,具体涉及一种基于单目视频流的层链约束三维人体姿态估计方法。
背景技术:
1、3d人体姿态估计是计算机视觉领域的一个重要研究方向,已经在多个领域展现出广泛的应用价值。当前,该方向最主流的技术是将人体图像或视频中的2d人体关节点提升至3d关节表示。该方法可以分解为两个连续的步骤。第一个步骤是利用现成的二维人体关键点检测器获取人体图像或视频中的人体2d关节坐标,第二个步骤则是将得到的关节坐标通过复杂深度神经网络的映射输出到三维空间中,最终得到人体关节的3d坐标表示。由于该过程中存有严重的深度模糊问题,使得预估人体姿态极其具有挑战性。
2、以往的研究表明,图卷积网络(gcn)在3d人体姿态估计任务中已经取得了显著的成就。同时,近年来transformer架构也展现出了极其卓越的性能。transformer的核心——注意力机制,凭借其理解全局上下文的能力,也在3d人体姿态估计任务中得到了大量的应用。基于注意力机制的3d人体姿态估计架构与基于图卷积网络的3d人体姿态估计架构同时成为3d人体姿态估计任务事实上的基准架构。虽然同为该任务的基准架构,但是两类网络对姿态信息的提取却各有重点。图卷积网络关注于局部精细特征的捕获,而注意力机制则注重姿态全局特征信息的捕获。它们各自从局部与全局两个层面对时间和空间的依赖进行学习。
3、为了解决2d到3d姿态估计任务中深度模糊的问题,许多研究使用图卷积网络对人体局部关节点间的约束信息进行学习,或者基于transformer的注意力机制对2d姿态序列整体时空依赖进行描述。这些研究确实使得3d人体姿态估计任务取得了不俗的成绩。但是,这些研究还存在如下问题:
4、(1)将2d人体姿态回归到3d人体姿态的过程本质上是一个非适定性问题。而非适定性的核心挑战在于,通过单个2d骨架回归到3d人体姿态,存有多个合理且有效的可能解。加之人体姿态本身固有的多样性和不确定性,以及真实野外环境下严重的遮挡现象,这些因素都导致难以精确预估人体的3d姿态。
5、(2)现有的基于视频输入的3d人体姿态估计发明,大多是通过图卷积网络或注意力机制对2d姿态特征信息进行直接学习。这类研究的确能够从姿态序列输入中捕获到时间和空间的部分依赖信息,但是这种方法却过于单向化:仅仅考虑提升特征的时空关联或机制内部的矩阵运算,而没有显性归纳表示人体物理拓扑结构中蕴含的空间特征信息,这可能会导致有效信息的丢失。
6、(3)从宏观角度思考2d姿态到3d姿态的提升过程,还可以从局部层次和全局层次对姿态特征进行学习,而图卷积网络与注意力机制就恰恰分别关注于局部层次和全局层次。但是现有的基准类方法,大多是单独的注意力架构或图卷积架构,而没有很好的将两者结合起来,也没有从时间和空间上对局部与全局进行确切的划分。
7、综上,这些研究大多使用单一的学习方法,通常通过直接学习2d人体姿态的时空依赖回归到3d姿态,而没有专门的技术对时间和空间依赖进行显性归纳表达。
8、基于此,本发明提出了一种新的基于时空注意力和时空图卷积的方法,称为层链约束网络(lcc),用于从单目视频估计3维人体姿态。该模型整合了时空注意力机制和时空图卷积网络,同时能够显性表达人体物理拓扑结构,通过全局与局部两个层次的相互融合转换能够更好的提升任务精度。
9、此外,还创新性地引入了三个模块,旨在从不同维度深入学习2d姿态的长时空依赖特征,以提高模型的估计精度。具体而言,本发明设计了sfm模块,专注于单帧视角,负责捕捉精细的人体姿态拓扑空间信息。该模块内部构建了一个全新的帧域关节约束机制,运用节点权重比例设定、节点分类预设等方法,对初始输入特征的空间依赖关系进行学习。同时,本发明设计了ifm模块,作为帧间视角的实现,它接收来自单帧视角的潜在空间特征,进而提取并融合局部时空依赖,并将这些依赖作为中间特征融入全局视角,共同参与对时空特征向量的捕获。进一步地,本发明还引入了efm模块,该模块能够促进不同层次信息的交互与融合,从而进一步提高估计任务的准确性。本发明充分利用2d人体姿态长时空特征信息间的深度依赖,优化了模型的建模能力。
技术实现思路
1、本发明的目的在于提供一种基于单目视频流的层链约束三维人体姿态估计方法,以解决现有技术中3d人体姿态估计技术大多使用单一的学习方法,通过直接学习2d人体姿态的时空依赖回归到3d姿态,而没有专门对时间和空间依赖进行显性归纳表达等问题。
2、为实现上述目的,本发明所采用的技术方案为:
3、本发明中第一方面提出了一种基于单目视频流的层链约束三维人体姿态估计模型,包括时空编码基本块,通过m个时空编码基本块串行连接构成模型主体,m=6;所述时空编码基本块包括sfm模块、ifm模块、efm模块、时间注意力模块、空间注意力模块、时间图卷积模块和空间图卷积模块;
4、所述时间注意力模块和空间注意力模块,使用多头注意力机制分别对姿态序列的全局空间特征和全局时间特征进行学习;
5、所述时间图卷积模块和空间图卷积模块,采用图卷积网络分别从局部时间和局部空间两个方面对姿态特征进行处理;
6、所述sfm模块,从单帧角度对姿态特征提取固有的空间信息,通过帧域关节约束机制对人体关节特征向量进行物理约束,引导单帧拓扑结构中具有隐含关联的关节进行交互;
7、所述ifm模块,从帧间角度对姿态特征进行限制帧分布操作,对帧间的时间和空间依赖关系进行建模;
8、所述efm模块,用于提取姿态特征向量的潜在时空关联,且进行特征融合。
9、优选地,所述sfm模块,具体如下:
10、输入初始特征xl,使用帧域关节约束机制对其进行先验设置;经过运算后得到一个帧域中间特征向量x’l,代表单帧姿态被施加约束后的约束特征信息;
11、将帧域中间特征向量x’l通过一个全连接层并进行维度变换,得以确定人体姿态关节点数量个特征向量,再通过一个全连接层回归到与输入特征相同的特征维度向量xl“;使用efm模块对xl“向量进行学习;最后使用并联的时间图卷积模块和空间图卷积模块,对获得的两个特征信息进行互补融合;表示如下:
12、xl“=ffn(ρ(ffn(x’l)))
13、γl=s_gcn(α*xl“+β*efm(xl“))+t_gcn(β*xl“+α*efm(xl“))
14、其中,α+β=1;ρ(*)指对该特征进行维度转换;ffn表示全连接层,s_gcn表示空间图卷积模块,t_gcn表示时间图卷积模块。
15、优选地,所述帧域关节约束机制包括节点分类预设、节点权重比例设定;
16、所述节点分类预设,将具有稳定特性的若干个固定关节节点分为第一层,将物理结构上相邻的两个关节分为第二层和第三层;将所有关节分为5个节点类型,分别为第一层重叠点、第一层未重叠点、第一二层重叠点、第二三层重叠点、第三层未重叠点;对5个节点类型进行节点权重比例设定;
17、所述帧域关节约束机制以节点类型和层次划分对特征输入施加制导约束:以节点权重比例设定系数与5种不同的节点类型做乘积操作;以相邻两个层次各自所占权重比例划分重叠点的权重比例系数,即
18、
19、其中,wi,j代表关节重叠点的权重比例系数,j=0代表只有一个关节点,代表某个关节点处于3个层次中的第n层。
20、优选地,所述ifm模块,具体如下:
21、输入特征el,el=xl+γl;将输入特征el经过限制帧分布操作后得到特征向量e′l,将其先后经过空间图卷积模块和时间图卷积模块,经过空间图卷积模块和时间图卷积模块的姿态特征向量均通过一个全连接模块与其自身构成一个残差连接,再经过efm模块完成最后的特征学习;ifm模块的输出公式为:
22、e″l=s_gcn(e′l)
23、
24、zl=efm(e″l+ffn(e″l))+efm(e″′l+ffn(e″′l))
25、其中,代表经过空间图卷积模块所得的姿态特征向量e″l通过第二次限制帧分布;ffn表示全连接层,s_gcn表示空间图卷积模块,t_gcn表示时间图卷积模块。
26、优选地,所述限制帧分布操作包括设置输入帧对应的处理头数量以及对每个限制帧进行分布处理;
27、将输入特征向量el平均分为h个长度相等的限制帧随后生成h个符合正态分布的分布系数数组将其与每一个限制帧做乘积,用于对帧间时空信息添加约束,得到经过限制帧分布的中间特征向量e′l;该过程用如下公式表示:
28、
29、优选地,所述efm模块,具体如下:
30、efm模块由一个全连接层和2维卷积构成;通过将输入特征xl与经过全连接层获得的特征向量拼接,获得中间特征向量,再使用2维卷积对局部视野的特征进行下采样,回归得到学习过的姿态特征向量hl;该过程用如下公式表示:
31、hl=down_samping(concat(xl,ffn(xl)))
32、其中,down_samping为回归操作;ffn表示全连接层。
33、优选地,对模型进行优化,使用mpjpe损失函数来优化预估值和地面实况之间的误差:
34、
35、其中,gi和pi分别表示关节i的地面真实3d关节位置和预估3d关节位置。
36、本发明中第二方面提出了一种采用上述模型进行的基于单目视频流的层链约束三维人体姿态估计方法,包括如下步骤:
37、s1、输入初始特征向量xl至sfm模块,sfm模块从单帧角度对姿态特征提取固有的空间信息,输出蕴含潜在空间特征的特征向量γl;
38、s2、将蕴含潜在空间特征的特征向量γl和初始特征向量xl输入至ifm模块,ifm从帧间角度对姿态特征进行限制帧分布操作,输出特征向量zl;
39、s3、特征向量zl和特征向量γl输入至efm模块,efm模块用于促进不同层次信息的交互与融合;
40、s4、特征向量zl同样作为部分输入连同初始特征向量xl输入至空间注意力模块和空间图卷积模块中,用于融合局部时空依赖,并作为中间特征融入全局视角,共同参与对时空特征向量的捕获;
41、s5、将s4中捕获的时空特征向量连同s3中融合不同层次信息的特征向量融合,再连同初始特征向量xl分别输入至时间注意力模块和时间图卷积模块;
42、s6、利用时间注意力模块和时间图卷积模块进行全局与局部两个层次的相互融合,融合后的时间特征向量连同初始特征向量xl交互融合,得到三维姿态序列。
43、与现有技术相比,本发明具备以下有益效果:
44、(1)、本发明提出从单帧、帧间、整体三个视角对2d姿态进行建模,同时从全局和局部两个层次对时空特征进行分步交互融合的解决策略,帮助建立长时空依赖间更强的链接关系,解决了以往研究存有的局限性。
45、(2)、本发明提出了一个全新架构lcc;该架构采用层链设计,结合时空注意力、时空图卷积将来自不同层次的时空信息进行通信,实现了对2d姿态更好的时空依赖建模。
46、(3)、本发明提出一种帧域关节约束机制,从单帧视角约束姿态空间特征,并以此设计完成新颖的sfm模块;同时,提出限制帧分布处理方法,设计完成ifm模块。
47、(4)、本发明设计了一个具有特征融合作用的efm模块;该模块能将初始输入特征进行物理转换,从而得到一个更佳的特征语义信息。
1.一种基于单目视频流的层链约束三维人体姿态估计模型,其特征在于,包括时空编码基本块,通过m个时空编码基本块串行连接构成模型主体,m=6;所述时空编码基本块包括sfm模块、ifm模块、efm模块、时间注意力模块、空间注意力模块、时间图卷积模块和空间图卷积模块;
2.根据权利要求1所述的基于单目视频流的层链约束三维人体姿态估计模型,其特征在于,所述sfm模块,具体如下:
3.根据权利要求2所述的基于单目视频流的层链约束三维人体姿态估计模型,其特征在于,所述帧域关节约束机制包括节点分类预设、节点权重比例设定;
4.根据权利要求1所述的基于单目视频流的层链约束三维人体姿态估计模型,其特征在于,所述ifm模块,具体如下:
5.根据权利要求4所述的基于单目视频流的层链约束三维人体姿态估计模型,其特征在于,所述限制帧分布操作包括设置输入帧对应的处理头数量以及对每个限制帧进行分布处理;
6.根据权利要求1所述的基于单目视频流的层链约束三维人体姿态估计模型,其特征在于,所述efm模块,具体如下:
7.根据权利要求1所述的基于单目视频流的层链约束三维人体姿态估计模型,其特征在于,对模型进行优化,使用mpjpe损失函数来优化预估值和地面实况之间的误差:
8.一种采用权利要求1-7所述模型进行的基于单目视频流的层链约束三维人体姿态估计方法,其特征在于,包括如下步骤:
