本技术涉及图像处理,特别是涉及一种图像转换方法、系统、计算机设备以及存储介质。
背景技术:
1、近年来,深度学习和人工智能技术的迅猛发展已经对图像翻译领域产生了影响。图像翻译作为计算机视觉领域的一个重要分支,旨在将一张图像的内容转化为另一张具有不同风格、内容或领域的图像,同时尽可能地保留源图像的内容和结构。图像翻译技术的社会应用越来越广泛,其重要性日益显著。
2、域迁移图像翻译是图像翻译的一个重要子任务,旨在将一个图像从源域转换到目标域,同时保持原始图像的内容结构信息不变。当前在将原始图像进行域迁移时,往往通过深度神经网络,根据原始图像的图像特征和目标图像的描述信息将原始图像从源域转换到目标域,存在生成的目标图像与原始图像视觉观感不一致的缺陷,因此,如何在对原始图像进行域迁移时,保证图像转换结果的准确性,使得获取的目标图像具有期望的视觉观感,是需要解决的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够在对原始图像进行域迁移时,保证图像转换结果的准确性,使得获取的目标图像具有期望的视觉观感,是需要解决的问题的面部表情的图像转换方法、系统、计算机设备以及存储介质。
2、第一方面,本技术提供了一种图像转换方法,所述方法包括:
3、获取原始图像的图像描述文本;
4、通过文本编码器,根据目标描述文本确定目标文本嵌入向量,并根据所述图像描述文本确定原始文本嵌入向量;
5、通过深度神经网络模型,根据所述原始文本嵌入向量和所述目标文本嵌入向量确定融合文本嵌入向量;
6、通过稳定扩散模型,根据所述融合文本嵌入向量对所述原始图像进行图像转换,确定目标图像。
7、在其中一个实施例中,获取原始图像的图像描述文本,包括:
8、将原始图像输入图像描述生成器,确定所述原始图像的子图像;
9、通过神经网络模型的线性嵌入向量层将所述子图像转换为图像嵌入向量;
10、通过图像描述生成器中的视觉编码器,根据所述图像嵌入向量确定所述原始图像的图像特征;
11、通过所述图像描述生成器中的视觉解码器,根据所述图像特征确定所述原始图像的图像描述文本。
12、在其中一个实施例中,通过文本编码器,根据目标描述文本确定目标文本嵌入向量,并根据所述图像描述文本确定原始文本嵌入向量,包括:
13、确定所述图像描述文本的原始词元序列,以及所述目标描述文本的目标词元序列;
14、根据所述原始词元序列确定原始输入嵌入向量,并根据所述目标词元序列确定目标输入嵌入向量;
15、根据所述原始输入嵌入向量确定原始嵌入向量矩阵,并根据所述目标输入嵌入向量确定目标嵌入向量矩阵;
16、通过文本编码器,根据所述原始嵌入向量矩阵确定原始文本嵌入向量,并根据所述目标嵌入向量矩阵确定目标文本嵌入向量。
17、在其中一个实施例中,根据所述原始词元序列确定原始输入嵌入向量,并根据所述目标词元序列确定目标输入嵌入向量,包括:
18、确定所述原始词元序列对应的原始词嵌入向量和原始位置嵌入向量,以及所述目标次元序列对应的目标词嵌入向量和目标位置嵌入向量;
19、根据所述原始词嵌入向量和原始位置嵌入向量确定原始词元序列的原始输入嵌入向量;
20、根据所述目标词嵌入向量和所述目标位置嵌入向量确定目标词元序列的目标输入嵌入向量。
21、在其中一个实施例中,通过深度神经网络模型,根据所述原始文本嵌入向量和所述目标文本嵌入向量确定融合文本嵌入向量,包括:
22、将目标文本嵌入向量输入深度神经网络模型,通过所述深度神经网络模型的多头自注意力层对目标文本嵌入向量进行特征提取,生成目标文本的语义特征;
23、将原始文本嵌入向量和目标文本嵌入向量输入所述深度神经网络模型的交叉注意力层,生成所述目标文本的融合语义信息,以及所述图像描述文本的融合语义信息;
24、通过所述深度学习网络的前馈网络层,根据所述目标文本的融合语义信息和所述图像描述文本的融合语义信息确定所述原始文本嵌入向量和所述目标文本嵌入向量的融合文本嵌入向量。
25、在其中一个实施例中,通过稳定扩散模型,根据所述融合文本嵌入向量对所述原始图像进行图像转换,确定目标图像,包括:
26、通过多模态预训练模型和图像分类模型,根据所述图像描述文本对所述原始图像进行语义分割,确定分割图像;
27、根据所述分割图像的像素信息确定所述分割图像的掩码图;
28、将掩码图输入到稳定扩散模型,基于所述融合文本嵌入向量生成特征空间向量,通过去噪扩散概率模型对特征空间向量进行降噪处理,确定目标空间向量;
29、根据所述目标空间向量对所述原始图像进行图像转换,确定目标图像。
30、在其中一个实施例中,根据所述分割图像的像素信息确定所述分割图像的掩码图,包括:
31、根据所述分割图像的像素信息确定所述分割图像的图像置信度,并根据所述图像置信度确定置信度矩阵;
32、对置信度矩阵中的矩阵元素进行反处理,确定目标矩阵;
33、根据所述目标矩阵和分割图像确定掩码图。
34、第二方面,本技术还提供了一种图像转换系统,所述图像转换系统包括:
35、原始图像输入界面,用于输入原始图像;
36、描述文本输入界面,用于输入目标描述文本;
37、目标图像展示界面,用于展示目标图像;所述目标图像的生成方式为:通过文本编码器,根据原始图像的目标描述文本和所述图像描述文本确定原始文本嵌入向量和目标文本嵌入向量;通过深度神经网络模型,根据所述原始文本嵌入向量和所述目标文本嵌入向量确定融合文本嵌入向量;通过稳定扩散模型,根据所述融合文本嵌入向量对所述原始图像进行图像转换,确定目标图像。
38、第三方面,本技术还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
39、获取原始图像的图像描述文本;
40、通过文本编码器,根据目标描述文本确定目标文本嵌入向量,并根据所述图像描述文本确定原始文本嵌入向量;
41、通过深度神经网络模型,根据所述原始文本嵌入向量和所述目标文本嵌入向量确定融合文本嵌入向量;
42、通过稳定扩散模型,根据所述融合文本嵌入向量对所述原始图像进行图像转换,确定目标图像。
43、第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
44、获取原始图像的图像描述文本;
45、通过文本编码器,根据目标描述文本确定目标文本嵌入向量,并根据所述图像描述文本确定原始文本嵌入向量;
46、通过深度神经网络模型,根据所述原始文本嵌入向量和所述目标文本嵌入向量确定融合文本嵌入向量;
47、通过稳定扩散模型,根据所述融合文本嵌入向量对所述原始图像进行图像转换,确定目标图像。
48、上述图像转换方法、系统、计算机设备以及存储介质,获取原始图像的图像描述文本,通过文本编码器,根据目标描述文本确定目标文本嵌入向量,并根据图像描述文本确定原始文本嵌入向量;通过深度神经网络模型,根据原始文本嵌入向量和目标文本嵌入向量确定融合文本嵌入向量;通过稳定扩散模型,根据融合文本嵌入向量对原始图像进行图像转换,确定目标图像。解决了直接由文本条件主导图像过程而忽略了原始图像的内容和结构语义,存在生成的目标图像与原始图像视觉观感不一致的问题。上述方案,在对原始图像进行图像转换时,基于原始图像的图像描述文本,和期望生成的目标图像的目标描述文本确定融合文本嵌入向量,使得融合文本嵌入向量能够表征图像描述文本的文本特征和目标描述文本的文本特征,采用融合文本嵌入向量指导稳定扩散模型对原始图像进行图像转换,能够在原始图像进行图像转换的过程中,尽量保持原始图像的特征结构,提高了图像转换结果的准确性,使得获取的目标图像具有期望的视觉观感。
1.一种图像转换方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,获取原始图像的图像描述文本,包括:
3.根据权利要求1所述的方法,其特征在于,通过文本编码器,根据目标描述文本确定目标文本嵌入向量,并根据所述图像描述文本确定原始文本嵌入向量,包括:
4.根据权利要求3所述的方法,其特征在于,根据所述原始词元序列确定原始输入嵌入向量,并根据所述目标词元序列确定目标输入嵌入向量,包括:
5.根据权利要求1所述的方法,其特征在于,通过深度神经网络模型,根据所述原始文本嵌入向量和所述目标文本嵌入向量确定融合文本嵌入向量,包括:
6.根据权利要求1所述的方法,其特征在于,通过稳定扩散模型,根据所述融合文本嵌入向量对所述原始图像进行图像转换,确定目标图像,包括:
7.根据权利要求6所述的方法,其特征在于,根据所述分割图像的像素信息确定所述分割图像的掩码图,包括:
8.一种图像转换系统,其特征在于,所述图像转换系统包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的方法的步骤。