一种姿态驱动的基于注意力机制的人物图像合成方法

专利2026-06-09 6

本发明属于计算机视觉领域，涉及人物合成方法，具体涉及一种利用注意力机制人物图像生成的方法。

背景技术：

1、基于姿态的人物图像生成技术，近年来在学术界和工业界均引起了广泛关注。它的应用非常广泛，如电子商务、电影特效、人物再识别该技术旨在将给定人物的姿态转换为目标姿态，以生成相应的图像。在虚拟现实领域，人物合成技术发挥着重要作用，它能够生成逼真的人物模型，从而增强用户与虚拟环境的交互体验。在虚拟人物重建任务中，该技术有助于恢复或重建受损的虚拟人物形象。在模拟换衣和服装纹理生成应用中，人物合成技术能够创建更加逼真的服装效果和纹理效果，为用户提供更加真实的换衣和服装设计体验。

2、尽管该技术在维持高保真的纹理和身体结构方面取得了一定进展，但姿态变化导致的局部身体部位的空间错位和遮挡问题仍然是一个挑战。此外，现有的数据集通常包含有限的纹理样式，这限制了生成人物外观的多样性。姿势引导人物图像生成任务，旨在生成任意给定姿势的人物图像。，早期的一些模型建立在普通的cnn神经网络上，cnn缺乏进行复杂的几何变换功能，不适用于空间复杂度很高的人物姿态变换任务，在生成式对抗网络和变分自编码器等模型不断发展下，姿态引导的人物合成技术取得了很大的进步，方法致力于引入格外的先验，例如人物解析语义图像和人物姿态关键点，或者利用注意力机制提高网络的空间转换能力。人物合成技术面临的挑战主要集中在两个关键领域：一是如何生成具有多样性和高质量特征的人物图像，二是如何实现对生成人物姿势和外观的完全控制。为解决第一个问题，研究者可以探索采用更先进的神经网络架构，并结合大规模的训练数据集，以提升模型的泛化能力和生成质量。此外，通过在训练过程中引入随机噪声和多样化的风格化采样技术，可以增强模型的生成多样性。对于第二个挑战，即如何精确控制生成人物的姿势和外观，研究可以通过引入额外的先验知识和约束条件来实现。这包括利用姿态引导的先验知识来指导人物图像的生成过程，以及利用人物图像对应的语义信息作为生成任务的先验条件，从而增强生成过程的可控性。这些方法均建立在深入理解人物结构、服装设计原则和姿势控制机制的基础上，旨在提升人物合成技术的整体性能和实用性。

3、人物合成技术在多个领域具有广泛的应用前景，但其面临的挑战也不容忽视。未来研究需要进一步探索如何解决姿态变化带来的空间错位和遮挡问题，以及如何扩大数据集中纹理样式的多样性，以提升生成人物图像的质量。

4、现有的姿势引导人体图像生成方法中存在的问题，具体包括：

5、首先是人体结构从源到目标转换的不确定性。现有的引入先验的方法不能精确地指导人类图像的生成，并且缺乏大规模应用程序的可扩展性。但如果没有额外的先验，引入的人体姿势在空间上与目标图像不对应，导致某些身体部位的纹理错位。

6、第二个就是人物外观合成质量不足的问题，传统的合成方法过于关注模型中在姿态迁移人物中的泛化能力，往往缺乏对源图像中纹理细节的关注，导致合成图像学习在姿态迁移方面表现优秀但是人物外观缺乏细粒度纹理。

技术实现思路

1、为解决人物图像合成中的纹理错位和人物外观质量不足，的问题。本发明提出了一种姿态驱动的基于注意力机制的人物图像合成方法。在实现复杂姿态变化的过程中能够有效的保留人物外观的原始特征。

2、本发明致力于解决人物图像合成领域中的合成人物图像姿态与原始图像纹理不对齐以及合成纹理细节不足的问题，我们引入了一种广义的线性注意力机制合成方法。以人物图像和人物骨骼关键点作为输入，利用特征提取滤波器和归一化矩阵提取图像特征和人物姿态空间分布。通过多通道矩阵乘法将人物各个部分的外观特征分布到人物姿态上。利用注意力机制，可以获得更加具体逼真的人物外观纹理，同时避免了由于姿态变化过大导致的外观与姿态不对齐的问题。

3、本发明在实际训练中能够有效减少训练消耗，加速模型训练过程。同时能够有效的控制合成人物的外观和姿态，相对于传统方法中引入单一先验或者没有先验内容的方法，本发明在训练时引入了人物图像对应的骨骼关键点作为先验，使用外观编码器和骨架编码器学习学习人物外观和人物姿态，通过矩阵乘法将引入的特征进行融合输出。此外，本发明提出了一种渐进式采样的方法，能够在各个尺度下进行图像生成，通过逐级生成的方式，获得最终图像。在推理阶段，我们的模型够能生成不同姿态下的人物特征。

4、一种姿态驱动的基于注意力机制的人物图像合成方法，包括步骤如下：

5、步骤1：通过骨架编码器将目标骨架转换为特征映射。

6、步骤2：通过外观编码器将原图像转换为特征映射。

7、步骤3：在获取到骨架编码器和外观编码器提取的特征后，利用多尺度图像细化网络对提取的特征进行多尺度图像细化。

8、多尺度图像细化网络以骨架编码器和外观编码器生成的特征映射作为输入。对于不同的尺度的特征映射分别使用姿势驱动注意力来生成目标特征。最后，通过上采样和“torgb”每个尺度的特征输出来逐级生成不同分辨率下的人物图像，获得最终目标人物图像。

9、步骤4：以端到端方式训练模型，同时学习特征融合和目标图像生成。利用了注意力重建损失、感知损失、风格损失和对抗性损失来训练模型：

10、总体损失如下：

11、lall＝λattenlatten+λstylelstyle+λperclperc+λadvladv

12、其中λatten，λstyle，λperc，λadv分别为代表注意力重建损失latten、感知损失lperc、风格损失lstyle和对抗性损失ladv的权重。

13、进一步的，步骤1具体方法如下：

14、首先利用人物姿态估计方法对原始人物图像进行处理获得目标骨骼关键点，并将目标骨骼关键点构建为18通道的特征热图。这些特征热图表示人体关节之间的连接关系。将18通道的特征热图输入骨架编码器，采用带偏差的下采样卷积神经网络将特征热图编码到高维空间以指导图像生成。骨架编码器的最终输出分辨率为16×16。

15、进一步的，步骤2具体方法如下：

16、外观编码器同样采用带偏差的下采样卷积神经网络。通过将原始人物图像编码到高维空间指导最终图像的生成。外观编码器将输出分辨率分为5级，按顺序以16×16,32×32，64×64,128×128，256×256这样5个分辨率层级输出。

17、进一步的，步骤3具体方法如下：

18、多尺度图像细化网络以骨架编码器和外观编码器生成的特征映射作为输入。对于不同的尺度的特征映射分别使用姿势驱动注意力来生成目标特征。在获得当前尺度下的目标特征后，将其作为输入与外观编码输出的特征一同注入到下一层的姿态驱动注意力中。总的来说，对于每一层，网络将前一层输出的目标特征作为参考特征来预测目标人物图像的空间分布，对于第一层级的特征生成，直接采用外观编码器和骨架编码器的输出进行目标特征生成。对于其他层级的目标特征，采用外观编码器的输出和上一层级的姿态驱动注意力输出的目标特征进行特征生成，获得当前层级下的目标特征。最后，通过上采样和“torgb”每个尺度的特征输出来逐级生成不同分辨率下的人物图像，获得最终目标人物图像。

19、进一步的，姿势驱动注意力具体实现如下：

20、对于16×16层级下的姿态驱动注意力，采用外观编码器和骨架编码器产生的特征作为输入，而对于其他层级，采用上一层级姿态驱动注意力获得的特征与外观编码器输出的特征作为输入。它利用卷积滤波和归一化函数来提取外观和结构特征。然后通过多通道矩阵乘法将外观信息广播到人物姿态上。

21、首先进行外观特征的提取：

22、令fr代表外观编码器从人物外观中提取的特征，将fr输入像素分析滤波器中，计算像素分析滤波器wb和fr之间的注意力关联矩阵cb：

23、cb＝wb×fr

24、其中，cb的每一行包含每个外观编码器编码的特征对本层级输出外观特征的贡献。以卷积滤波器作为像素分析滤波器wb，使用具有空间大小的二维卷积滤波器来获得准确的纹理特征。

25、通过softmax函数对得到的注意力关联矩阵进行归一化，得到归一化矩阵此外通过映射函数f，将得到的特征值映射到潜在空间中，与归一化矩阵进行乘法得到处理完毕后的外观特征fe，公式表示如下：

26、

27、之后进行结构特征的提取，采用ft代表骨架编码器从人物骨架中提取的结构信息(第一层级)或姿态驱动注意力输出的特征(除第一层级之外)。将ft输入姿态估计滤波器中，计算姿态估计滤波器wd和ft之间的注意力关联矩阵cd：

28、cd＝wd×ft

29、同样使用具有空间大小的二维卷积滤波器作为姿态估计滤波器wd进行特征提取。通过softmax函数进行归一化，得到归一化矩阵其中的每一列包含了每个骨架编码器提取的特征或姿态驱动注意力输出的特征对合成本层级输出结构特征时的贡献。

30、最后通过一个包含通道注意力的，多通道矩阵乘法(multi-channel matmual)简称mcm将得到的外观特征分配到目标人物姿态上，公式表示如下：

31、

32、其中mcm表示多通道矩阵乘法，表示第n个输出的具有不同关注区域的特征图。

33、mcm利用通道注意力，能够生成具有不同关注区域的特征图，并且通过通道注意力，他们将被赋予不同的权重值。

34、

35、其中，linear表示将生成的n个不同关注度的特征图根据不同权重相加得到一张特征图后输出，fo代表最终的目标特征。

36、进一步的，注意力重建损失：使用注意力重建损失来约束特征融合操作，以获得准确的空间分布结果，这种损失促使每一层的分布结果更接近真实图像。

37、

38、其中是由真实人物图像it和根据原始人物图像生成的目标特征图fo调整到第l个分辨率层级下得到的，其中l∈[1,2,3,4,5]。

39、进一步的，感知损失：通过感知损失能够将目标图像限制在更高的特征水平上。使用预训练的vgg19模型来计算生成的目标人物图像和真实图像之间的差值。

40、

41、其中代表生成的目标人物图像，it代表真实人物图像，代表vgg19网络中的第i个激活层，使用[relu1_1,relu2_1,relu3_1,relu4_1,relu5_1]这5层进行计算。

42、进一步的，风格损失：为了进一步增强目标人物图像与源图像在外观属性上的空间一致性，引入了风格损失。用格拉姆矩阵计算生成目标人物图像的和真实图像之间的误差具体公式如下；

43、

44、其中代表生成的目标人物图像，it代表真实人物图像，代表vgg19网络中的第a个激活层，使用[relu2_2,relu3_4,relu4_4,relu5_2]这4层进行计算。g为格拉姆矩阵矩阵。

45、进一步的，对抗性损失：使用对抗损失来约束生成的图像让它近似于真实图像的分布，同时也适用于捕获图像的高频细节。具体公式如下；

46、ladv＝e[log(1-d(g(pi,ii)))]+e[log(d(ii))]

47、其中d代表鉴别器，g代表生成器。

48、本发明有益效果如下：

49、本发明提出了一种姿态驱动的注意力机制，能够有效提取外观特征和姿态特征，通过通道注意力机制的自适应权重获取不同关注度的特征图。最终按权重相加输出，有利于在姿态变换中不丢失原始特征最大程度保留了原图像的信息。同时本发明提出了一种渐进式生成网络，可逐级生成人物图像。不仅有利于最终生成目标图像获得更精细的纹理，而且渐进式生成的过程让模型在不同分辨率下进行姿态迁移，有利于模型捕捉复杂姿态变化下的图像纹理，能够在合成图像时实现姿态和人物原始外观的对应。

技术特征：

1.一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤1具体方法如下：

3.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤2具体方法如下：

4.根据权利要求1-3任意一项所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤3具体方法如下：

5.根据权利要求4所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，姿势驱动注意力具体实现如下：

6.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，注意力重建损失具体如下：

7.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，感知损失具体如下：

8.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，风格损失具体如下：

9.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，对抗性损失具体如下：

10.根据权利要求2或3所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，所述的带偏差的下采样卷积神经网络包含5个3×3的卷积，其中4个卷积层以2作为因子进行下采样；卷积层之间通过一个blur层连接。

技术总结
本发明公开了一种姿态驱动的基于注意力机制的人物图像合成方法。首先通过骨架编码器将目标骨架转换为特征映射，通过外观编码器将原图像转换为特征映射；利用多尺度图像细化网络对提取的特征进行多尺度图像细化，获得最终目标人物图像；最后以端到端方式训练模型，同时学习特征融合和目标图像生成。本发明提出了一种姿态驱动的注意力机制，能够有效提取外观特征和姿态特征，通过通道注意力机制的自适应权重获取不同关注度的特征图。最终按权重相加输出，有利于在姿态变换中不丢失原始特征最大程度保留了原图像的信息。

技术研发人员：王华涛,颜成钢,刘一秀,张继勇,殷俊,王鸿奎
受保护的技术使用者：杭州电子科技大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-31430.html