一种文生图模型训练方法、文字生成方法和装置与流程

专利2025-06-26 24

本发明涉及文生图，尤其是一种文生图模型训练方法、带有语义图像信息的文字生成方法和装置。

背景技术：

1、在印刷、广告设计、艺术设计、网页制作、软件开发和包装装潢等领域，经常需要设计出特殊的字体，当以这种特殊的字体显示某个文字时，这个文字呈现出的视觉效果如同这个文字所具有的语义的图像一样，从而产生良好的美感和宣传效果。这样的文字就是带有语义图像信息的文字。目前，在设计带有语义图像信息的文字时通常采用人工绘画等方式进行，因此具有效率低、成本高、风格难以统一等缺点。

技术实现思路

1、针对目前设计带有语义图像信息的文字时面临的效率低、成本高、风格难以统一等技术问题，本发明的目的在于提供一种文生图模型训练方法、带有语义图像信息的文字生成方法和装置。

2、一方面，本发明实施例包括一种文生图模型训练方法，所述文生图模型训练方法包括以下步骤：

3、获取样本文字；

4、根据所述样本文字，获得第一样本图像；

5、对所述第一样本图像进行加噪处理，获得第一加噪特征图；其中，所述加噪处理用于添加实际噪声信息；

6、对第一加噪特征图进行噪声预测处理，获得预测噪声信息；

7、根据所述预测噪声信息和所述实际噪声信息对文生图模型进行训练，得到训练后的文生图模型。

8、进一步地，所述文生图模型包括：栅格化模块；

9、所述根据所述样本文字，获得第一样本图像，包括：

10、对所述样本文字进行栅格化，获得第一样本图像；

11、其中，所述文生图模型包括：栅格化模块；所述对所述样本文字进行栅格化，获得第一样本图像，包括：

12、使用字体库提取所述样本文字的轮廓信息；

13、将所述轮廓信息转换成曲线；

14、根据所述曲线确定一组控制点；

15、将所述控制点输入所述栅格化模块进行栅格化处理，获得所述第一样本图像。

16、进一步地，所述对所述第一样本图像进行加噪处理，获得第一加噪特征图，包括：

17、对所述第一样本图像进行编码，获得第一特征图；

18、利用随机函数随机生成所述实际噪声信息；

19、将所述实际噪声信息添加至所述第一特征图，获得所述第一加噪特征图。

20、进一步地，所述文生图模型包括：文本编码模块和图像分割模块；

21、所述对第一加噪特征图进行噪声预测处理，获得预测噪声信息，包括：

22、获得样本文字对应的样本描述文本；

23、将所述样本描述文本输入所述文本编码模块进行处理，获得第一文本向量；

24、将所述第一文本向量输入所述图像分割模块作为噪声预测处理的控制条件，将第一加噪特征图输入所述图像分割模块进行噪声预测处理，获得预测噪声信息。

25、进一步地，所述图像分割模块包括依次全连接的多个交叉注意力下采样块、一个下采样块、一个交叉注意力中间块、一个上采样块以及多个交叉注意力上采样块；其中，各所述交叉注意力下采样块和各所述交叉注意力中间块分别具有各自相应的维度大小。

26、进一步地，所述将所述第一文本向量输入所述图像分割模块作为噪声预测处理的控制条件，将第一加噪特征图输入所述图像分割模块进行噪声预测处理，获得预测噪声信息，包括：

27、通过多个所述交叉注意力下采样块接收所述第一文本向量，对所述第一加噪特征图进行特征融入，获得第一低维特征信息；

28、通过所述下采样块对所述第一低维特征信息进行处理，获得第二低维特征信息；

29、通过所述交叉注意力中间块对所述第二低维特征信息进行处理，获得第三低维特征信息；

30、通过所述上采样块对所述第三低维特征信息进行处理，获得第一高维特征信息；

31、通过多个所述交叉注意力上采样块接收所述第一文本向量以及相同维度大小的所述交叉注意力下采样块的处理结果，根据所述第一文本向量对所述第一高维特征信息进行特征融入，根据所述交叉注意力下采样块的处理结果进行特征相加，获得第二高维特征信息；

32、确定所述第二高维特征信息与所述第一加噪特征图之间的差异，获得所述预测噪声信息。

33、进一步地，所述根据所述预测噪声信息和所述实际噪声信息对文生图模型进行训练，得到训练后的文生图模型，包括：

34、执行至少一轮训练过程；每轮所述训练过程分别获得相应的预测噪声信息和实际噪声信息；

35、对于任一轮所述训练过程，根据所述预测噪声信息和所述实际噪声信息确定损失函数值；

36、根据各轮所述训练过程的损失函数值，确定累积损失函数值；

37、根据所述累积损失函数值对所述文生图模型进行参数更新，得到训练后的文生图模型。

38、进一步地，所述根据所述预测噪声信息和所述实际噪声信息确定损失函数值，包括：

39、计算所述损失函数值，其中，所述损失函数值的计算公式为：

40、lossi＝(bi-ai)zi

41、其中，lossi为第i轮所述训练过程对应的所述损失函数值，bi为第i轮所述训练过程获得的所述预测噪声信息，ai为第i轮所述训练过程获得的所述实际噪声信息，zi为第i轮所述训练过程获得的所述第一加噪特征图。

42、进一步地，所述根据各轮所述训练过程的损失函数值，确定累积损失函数值，包括：

43、计算所述累计损失函数值，其中，所述累计损失函数值的计算公式为

44、

45、其中，lossi为第i轮所述训练过程对应的所述损失函数值，loss为所述累积损失函数值，lossi为第i轮所述训练过程对应的所述损失函数值，n为已执行的所述训练过程的总轮数。

46、进一步地，所述根据所述累积损失函数值对所述文生图模型进行参数更新，包括：

47、根据所述累积损失函数值，对所述栅格化模块、所述图像分割模块和所述文本编码模块中的至少一个模块的参数进行反向传播更新。

48、进一步地，所述根据所述累积损失函数值，对所述栅格化模块、所述图像分割模块和所述文本编码模块中的至少一个模块的参数进行反向传播更新，包括：

49、冻结所述图像分割模块和所述文本编码模块的参数；

50、根据所述累积损失函数值，对所述栅格化模块的参数进行反向传播更新。

51、另一方面，本发明实施例包括一种带有语义图像信息的文字生成方法，所述带有语义图像信息的文字生成方法包括：

52、获取文生图模型；所述文生图模型是经过文生图模型训练方法训练得到；

53、获取待处理文字和相应的待处理描述文本；

54、使用所述文生图模型对所述待处理文字和所述待处理描述文本进行处理，生成目标文字。

55、进一步地，所述使用所述文生图模型对所述待处理文字和所述待处理描述文本进行处理，生成目标文字，包括：

56、将所述文生图模型的处理结果映射到像素空间，获得所述目标文字。

57、另一方面，本发明实施例包括一种文生图模型训练装置，所述文生图模型训练装置包括：

58、文字获取模块，用于获取样本文字；

59、图像获取模块，用于根据所述样本文字，获得第一样本图像；

60、加噪模块，用于对所述第一样本图像进行加噪处理，获得第一加噪特征图；其中，所述加噪处理用于添加实际噪声信息；

61、预测模块，用于对第一加噪特征图进行噪声预测处理，获得预测噪声信息；

62、训练模块，用于根据所述预测噪声信息和所述实际噪声信息对文生图模型进行训练，得到训练后的文生图模型。

63、进一步地，所述根据所述样本文字，获得第一样本图像，包括：

64、对所述样本文字进行栅格化，获得第一样本图像；

65、其中，所述文生图模型包括：栅格化模块；所述对所述样本文字进行栅格化，获得第一样本图像，包括：

66、使用字体库提取所述样本文字的轮廓信息；

67、将所述轮廓信息转换成曲线；

68、根据所述曲线确定一组控制点；

69、将所述控制点输入所述栅格化模块进行栅格化处理，获得所述第一样本图像。

70、进一步地，所述对所述第一样本图像进行加噪处理，获得第一加噪特征图，包括：

71、对所述第一样本图像进行编码，获得第一特征图；

72、利用随机函数随机生成所述实际噪声信息；

73、将所述实际噪声信息添加至所述第一特征图，获得所述第一加噪特征图。

74、进一步地，所述对第一加噪特征图进行噪声预测处理，获得预测噪声信息，包括：

75、获得样本文字对应的样本描述文本；

76、将所述样本描述文本输入所述文本编码模块进行处理，获得第一文本向量；

77、将所述第一文本向量输入所述图像分割模块作为噪声预测处理的控制条件，将第一加噪特征图输入所述图像分割模块进行噪声预测处理，获得预测噪声信息。

78、进一步地，所述图像分割模块包括依次全连接的多个交叉注意力下采样块、一个下采样块、一个交叉注意力中间块、一个上采样块以及多个交叉注意力上采样块；其中，各所述交叉注意力下采样块和各所述交叉注意力中间块分别具有各自相应的维度大小。

79、进一步地，所述将所述第一文本向量输入所述图像分割模块作为噪声预测处理的控制条件，将第一加噪特征图输入所述图像分割模块进行噪声预测处理，获得预测噪声信息，包括：

80、通过多个所述交叉注意力下采样块接收所述第一文本向量，对所述第一加噪特征图进行特征融入，获得第一低维特征信息；

81、通过所述下采样块对所述第一低维特征信息进行处理，获得第二低维特征信息；

82、通过所述交叉注意力中间块对所述第二低维特征信息进行处理，获得第三低维特征信息；

83、通过所述上采样块对所述第三低维特征信息进行处理，获得第一高维特征信息；

84、通过多个所述交叉注意力上采样块接收所述第一文本向量以及相同维度大小的所述交叉注意力下采样块的处理结果，根据所述第一文本向量对所述第一高维特征信息进行特征融入，根据所述交叉注意力下采样块的处理结果进行特征相加，获得第二高维特征信息；

85、确定所述第二高维特征信息与所述第一加噪特征图之间的差异，获得所述预测噪声信息。

86、进一步地，所述根据所述预测噪声信息和所述实际噪声信息对文生图模型进行训练，得到训练后的文生图模型，包括：

87、执行至少一轮训练过程；每轮所述训练过程分别获得相应的预测噪声信息和实际噪声信息；

88、对于任一轮所述训练过程，根据所述预测噪声信息和所述实际噪声信息确定损失函数值；

89、根据各轮所述训练过程的损失函数值，确定累积损失函数值；

90、根据所述累积损失函数值对所述文生图模型进行参数更新，得到训练后的文生图模型。

91、进一步地，所述根据所述预测噪声信息和所述实际噪声信息确定损失函数值，包括：

92、计算所述损失函数值，其中，所述损失函数值的计算公式为：

93、lossi＝(bi-ai)zi

94、其中，lossi为第i轮所述训练过程对应的所述损失函数值，bi为第i轮所述训练过程获得的所述预测噪声信息，ai为第i轮所述训练过程获得的所述实际噪声信息，zi为第i轮所述训练过程获得的所述第一加噪特征图。

95、进一步地，所述根据各轮所述训练过程的损失函数值，确定累积损失函数值，包括：

96、计算所述累计损失函数值，其中，所述累计损失函数值的计算公式为

97、

98、其中，lossi为第i轮所述训练过程对应的所述损失函数值，loss为所述累积损失函数值，lossi为第i轮所述训练过程对应的所述损失函数值，n为已执行的所述训练过程的总轮数。

99、进一步地，所述根据所述累积损失函数值对所述文生图模型进行参数更新，包括：

100、根据所述累积损失函数值，对所述栅格化模块、所述图像分割模块和所述文本编码模块中的至少一个模块的参数进行反向传播更新。

101、进一步地，所述根据所述累积损失函数值，对所述栅格化模块、所述图像分割模块和所述文本编码模块中的至少一个模块的参数进行反向传播更新，包括：

102、冻结所述图像分割模块和所述文本编码模块的参数；

103、根据所述累积损失函数值，对所述栅格化模块的参数进行反向传播更新。

104、另一方面，本发明实施例包括一种带有语义图像信息的文字生成装置，所述带有语义图像信息的文字生成装置包括：

105、文生图模块，用于获取文生图模型；所述文生图模型经过文生图模型训练方法训练得到；

106、获取模块，用于获取待处理文字和相应的待处理描述文本；

107、处理模块，用于使用所述文生图模型对所述待处理文字和所述待处理描述文本进行处理，生成目标文字。

108、本发明的有益效果是：实施例中的文生图模型训练方法，通过使用文生图模型学习样本文字的字形，训练好的文生图模型具有生成目标文字的性能，所生成的目标文字具有与待处理文字相同的字形，且其字体呈现的视觉效果带有待处理文字对应的语义图像信息；实施例中的带有语义图像信息的文字生成方法，通过使用文生图模型生成目标文字，能够自动快速地生成带有语义图像信息的文字，由于减少了文字生成过程中的人工参与程度，因此能够提高效率、降低成本、在生成多个文字时容易统一不同文字的风格。

技术特征：

1.一种文生图模型训练方法，其特征在于，所述文生图模型训练方法包括：

2.根据权利要求1所述的文生图模型训练方法，其特征在于，所述根据所述样本文字，获得第一样本图像，包括：

3.根据权利要求2所述的文生图模型训练方法，其特征在于，所述对所述第一样本图像进行加噪处理，获得第一加噪特征图，包括：

4.根据权利要求1所述的文生图模型训练方法，其特征在于，所述文生图模型包括：文本编码模块和图像分割模块；

5.根据权利要求4所述的文生图模型训练方法，其特征在于，所述图像分割模块包括依次全连接的多个交叉注意力下采样块、一个下采样块、一个交叉注意力中间块、一个上采样块以及多个交叉注意力上采样块；其中，各所述交叉注意力下采样块和各所述交叉注意力中间块分别具有各自相应的维度大小。

6.根据权利要求5所述的文生图模型训练方法，其特征在于，所述将所述第一文本向量输入所述图像分割模块作为噪声预测处理的控制条件，将第一加噪特征图输入所述图像分割模块进行噪声预测处理，获得预测噪声信息，包括：

7.根据权利要求2-6任一项所述的文生图模型训练方法，其特征在于，所述根据所述预测噪声信息和所述实际噪声信息对文生图模型进行训练，得到训练后的文生图模型，包括：

8.根据权利要求7所述的文生图模型训练方法，其特征在于，所述根据所述预测噪声信息和所述实际噪声信息确定损失函数值，包括：

9.根据权利要求7所述的文生图模型训练方法，其特征在于，所述根据各轮所述训练过程的损失函数值，确定累积损失函数值，包括：

10.根据权利要求7所述的文生图模型训练方法，其特征在于，所述根据所述累积损失函数值对所述文生图模型进行参数更新，包括：

11.根据权利要求8所述的文生图模型训练方法，其特征在于，所述根据所述累积损失函数值，对所述栅格化模块、所述图像分割模块和所述文本编码模块中的至少一个模块的参数进行反向传播更新，包括：

12.一种带有语义图像信息的文字生成方法，其特征在于，所述带有语义图像信息的文字生成方法包括：

13.根据权利要求12所述的带有语义图像信息的文字生成方法，其特征在于，所述使用所述文生图模型对所述待处理文字和所述待处理描述文本进行处理，生成目标文字，包括：

14.一种文生图模型训练装置，其特征在于，所述文生图模型训练装置包括：

15.一种带有语义图像信息的文字生成装置，其特征在于，所述带有语义图像信息的文字生成装置包括：

技术总结
本发明公开了一种文生图模型训练方法、带有语义图像信息的文字生成方法和装置。本发明通过使用文生图模型学习样本文字的字形，训练好的文生图模型具有生成目标文字的性能，所生成的目标文字具有与待处理文字相同的字形，且其字体呈现的视觉效果带有待处理文字对应的语义图像信息；实施例中的带有语义图像信息的文字生成方法，通过使用文生图模型生成目标文字，能够自动快速地生成带有语义图像信息的文字，由于减少了文字生成过程中的人工参与程度，因此能够提高效率、降低成本、在生成多个文字时容易统一不同文字的风格。本发明广泛应用于文生图技术领域。

技术研发人员：程俊涛,刘强
受保护的技术使用者：珠海金山办公软件有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-25751.html