声音的克隆系统、方法、电子设备及存储介质

专利2025-04-25  28


本发明涉及电数字数据处理,特别涉及一种声音的克隆系统、方法、电子设备及存储介质。


背景技术:

1、相关技术中,基于dnn(deep neural network,深度神经网络)的声音克隆算法大多是预训练的模型,即每个训练好的模型都是基于一个已有数据集经过预训练得到的,在目标声音数据缺乏,或者没有经过模型训练的情况下,无法实现目标声源声音的克隆。如vits,soft-vc等,经过训练能够实现的声音转换为多到一的转换,即每次克隆一个新的目标声源的声音,都需要在目标声源声音训练集上训练得到合适的模型参数。这意味着现有的声音克隆模型需要一定时长的目标声源语音,不能做到即时克隆。

2、此外,在使用软语音表示的soft-vc上,还存在音色泄露现象,提取的语音向量中没有完全将声源特征去除,导致合成的语音仍含有部分原声源特征。

3、综上,相关技术中,声音克隆模型需要一定时长的目标声源语音,不能做到即时克隆,且存在音色泄露现象,导致合成的语音仍含有部分原声源特征,有待改进。


技术实现思路

1、本发明提供一种声音的克隆系统、方法、电子设备及存储介质,以解决相关技术中,声音克隆模型需要一定时长的目标声源语音,不能做到即时克隆,且存在音色泄露现象,导致合成的语音仍含有部分原声源特征等技术问题。

2、本发明第一方面实施例提供一种声音的克隆系统,包括:音频输入模块,用于接收任一声源的参考语音片段;语义提取模块,用于基于所述参考语音片段,识别所述参考语音片段的语言学离散语义表示;声纹特征提取模块,用于基于所述参考语音片段,提取所述任一声源的声纹特征;声学合成模块,用于将所述语言学离散语义表示和所述声纹特征重建为对应的声学频谱;声码器,用于将所述声学频谱作为输入,以利用所述参考语音片段输出具有所述任一声源的音色的语音。

3、可选地,在本发明的一个实施例中,所述语义提取模块进一步用于利用预先训练的hubert算法,将所述参考语音片段表示离散化为预设区间内的整数序列,以得到所述语言学离散语义表示。

4、可选地,在本发明的一个实施例中,所述声纹特征提取模块包括:梅尔滤波器,用于将所述参考语音片段中的语音波形从时域转换到频域,得到所述参考语音片段的梅尔频谱;转化单元,用于结合所述梅尔频谱、预先构建的卷积神经网络和预先构建的长短期记忆神经网络,得到所述任一声源的最终声纹属性,并将所述最终声纹属性转化为固定长度的声纹特征向量。

5、可选地,在本发明的一个实施例中,所述声学合成模块包括:合成单元,用于使用非线性层匹配上一时间步生成的所述任一声源的音色的梅尔频谱、所述语言学离散语义表示的整数序列、所述声纹特征的向量长度,得到相匹配的聚合数据;输出单元,用于将所述聚合数据输入预设多层残差长短期记忆神经网络,得到具有所述任一声源的特征的所述声学频谱。

6、可选地,在本发明的一个实施例中,所述声码器包括:转化单元,用于利用hifi-gan算法,将所述声学频谱转化为具有所述任一声源的音色的语音的音频波形,以输出具有所述任一声源的音色的语音。

7、本发明第二方面实施例提供一种声音的克隆方法,包括以下步骤:接收任一声源的参考语音片段;基于所述参考语音片段,识别所述参考语音片段的语言学离散语义表示;基于所述参考语音片段,提取所述任一声源的声纹特征;将所述语言学离散语义表示和所述声纹特征重建为对应的声学频谱;将所述声学频谱作为输入,以利用所述参考语音片段输出具有所述任一声源的音色的语音。

8、可选地,在本发明的一个实施例中,所述基于所述参考语音片段,识别所述参考语音片段的语言学离散语义表示,包括:利用预先训练的hubert算法,将所述参考语音片段表示离散化为预设区间内的整数序列,以得到所述语言学离散语义表示。

9、可选地,在本发明的一个实施例中,所述基于所述参考语音片段,提取所述任一声源的声纹特征,包括:将所述参考语音片段中的语音波形从时域转换到频域,得到所述参考语音片段的梅尔频谱;结合所述梅尔频谱、预先构建的卷积神经网络和预先构建的长短期记忆神经网络,得到所述任一声源的最终声纹属性,并将所述最终声纹属性转化为固定长度的声纹特征向量。

10、可选地,在本发明的一个实施例中,所述将所述语言学离散语义表示和所述声纹特征重建为对应的声学频谱,包括:使用非线性层匹配上一时间步生成的所述任一声源的音色的梅尔频谱、所述语言学离散语义表示的整数序列、所述声纹特征的向量长度,得到相匹配的聚合数据;将所述聚合数据输入预设多层残差长短期记忆神经网络,得到具有所述任一声源的特征的所述声学频谱。

11、可选地,在本发明的一个实施例中,所述将所述声学频谱作为输入,以利用所述参考语音片段输出具有所述任一声源的音色的语音,包括:利用hifi-gan算法,将所述声学频谱转化为具有所述任一声源的音色的语音的音频波形,以输出具有所述任一声源的音色的语音。

12、本发明第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的声音的克隆方法。

13、本发明第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的声音的克隆方法。

14、本发明第五方面实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被执行时,用于实现如上的声音的克隆方法。

15、本发明实施例可以利用音频输入模块接收任一声源的参考语音片段,通过语义提取模块,识别参考语音片段的语言学离散语义表示,通过声纹特征提取模块提取任一声源的声纹特征,通过声学合成模块将语言学离散语义表示和声纹特征重建为对应的声学频谱,最后通过声码器将声学频谱作为输入,以利用参考语音片段输出具有任一声源的音色的语音,通过提取原语音的语言学离散语义表示作为语言学特征,提取目标声源任意长度语音中嵌入的声纹特征,通过声学模型合成具有目标声源音色的原语音内容语音,不需要额外训练步骤即可克隆目标声源音色,从而实现即时声音克隆。由此,解决了相关技术中,声音克隆模型需要一定时长的目标声源语音,不能做到即时克隆,且存在音色泄露现象,导致合成的语音仍含有部分原声源特征等技术问题。

16、本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。



技术特征:

1.一种声音的克隆系统,其特征在于,包括:

2.根据权利要求1所述的声音的克隆系统,其特征在于,所述语义提取模块进一步用于利用预先训练的hubert算法,将所述参考语音片段表示离散化为预设区间内的整数序列,以得到所述语言学离散语义表示。

3.根据权利要求1所述的声音的克隆系统,其特征在于,所述声纹特征提取模块包括:

4.根据权利要求1所述的声音的克隆系统,其特征在于,所述声学合成模块包括:

5.根据权利要求1所述的声音的克隆系统,其特征在于,所述声码器包括:

6.一种声音的克隆方法,其特征在于,包括以下步骤:

7.根据权利要求6所述的声音的克隆方法,其特征在于,所述基于所述参考语音片段,识别所述参考语音片段的语言学离散语义表示,包括:

8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求6或7所述的声音的克隆方法。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求6或7所述的声音的克隆方法。

10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被执行时,用于实现如权利要求6或7所述的声音的克隆方法。


技术总结
本发明涉及电数字数据处理技术领域,特别涉及一种声音的克隆系统、方法、电子设备及存储介质,其中,系统包括:音频输入模块,用于接收任一声源的参考语音片段;语义提取模块,用于基于参考语音片段,识别参考语音片段的语言学离散语义表示;声纹特征提取模块,用于基于参考语音片段,提取任一声源的声纹特征;声学合成模块,用于将语言学离散语义表示和声纹特征重建为对应的声学频谱;声码器,用于将声学频谱作为输入,以利用参考语音片段输出具有任一声源的音色的语音。由此,解决了相关技术中,声音克隆模型需要一定时长的目标声源语音,不能做到即时克隆,且存在音色泄露现象,导致合成的语音仍含有部分原声源特征等技术问题。

技术研发人员:曾亮,陈博,曾捷
受保护的技术使用者:北京理工大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23814.html