本公开涉及计算机,尤其涉及一种数字人驱动方法、装置、电子设备和存储介质。
背景技术:
1、随着人工智能技术的发展,数字人的应用场景越来越广泛,尤其是在实时对话和文字播报方面。在实时对话场景中,数字人可以作为智能客服,为人们提供24小时的服务,解决各种问题;在元宇宙等虚拟场景中,数字人也可以作为虚拟角色,与用户进行实时地交流和互动;在文字播报场景中,数字人可以用于视频创作、动画片制作和游戏等方面。通过数字人的口型、表情和动作,可以更加生动地呈现文字内容,提高观众的观看体验。
2、对于数字人的动作和表情驱动,目前一般的做法是由动画师预先制作动画资产,再在实时运行时,根据额外的算法来检测文字或语音中是否有触发动作和表情的元素,进而触发动画资产。然而,这种额外的检测算法需要耗费较多的算力,效率较低,实时性较差。
技术实现思路
1、本公开提出了一种数字人驱动技术方案。
2、根据本公开的一方面,提供了一种数字人驱动方法,包括:
3、接收用户输入的文本形式的指令;
4、响应于接收到所述文本形式的指令,利用大模型得到用于对所述文本形式的指令进行回复的回复文本;其中,所述回复文本中带有驱动标记,所述驱动标记用于指示所述回复文本中需要数字人产生动作和/或表情的位置;所述大模型通过预先训练得到;
5、基于所述回复文本生成音频,并得到所述驱动标记对应的音频播放时间点;
6、播放所述音频,并在所述驱动标记对应的音频播放时间点,驱动数字人产生动作和/或表情。
7、在一种可能的实现方式中,所述基于所述回复文本生成音频,并得到所述驱动标记对应的音频播放时间点,包括:
8、去除所述回复文本中的驱动标记,得到目标文本;
9、对所述目标文本进行文本转语音操作,得到音频文件,以及所述音频中各音素的时间点;
10、基于所述驱动标记所指示位置的文字的音素,以及所述音频中各音素的时间点,确定所述驱动标记对应的音频播放时间点。
11、在一种可能的实现方式中,所述大模型基于样本数据训练得到,所述样本数据中的标签包含动作驱动标记;所述样本数据的生成过程包括:
12、利用包含动作驱动标记的样本示例,对基于上下文学习的样本生成模型进行训练,得到样本生成模型;
13、利用所述样本生成模型,生成包含动作驱动标记的样本数据。
14、在一种可能的实现方式中,所述大模型基于样本数据训练得到,所述样本数据中的标签包含表情驱动标记,所述样本数据的生成过程包括:
15、对文本进行拆分处理,得到文本片段;
16、对各文本片段进行情绪识别,得到各文本片段的情绪;
17、为各个文本片段添加与所述情绪对应的表情驱动标记,生成包含表情驱动标记的样本数据的标签。
18、在一种可能的实现方式中,所述大模型基于样本数据训练得到,所述样本数据的生成过程包括:
19、对文本进行拆分处理,得到文本片段;
20、对文本片段进行情绪关键词检测,得到文本片段中的情绪关键词;
21、为检测到的情绪关键词添加对应的表情驱动标记,生成包含表情驱动标记的样本数据的标签。
22、在一种可能的实现方式中,所述大模型基于样本数据训练得到,所述样本数据的生成过程包括:
23、针对包含动作驱动标记的文本,根据预设的动作情感词典,确定与所述动作驱动标记对应的表情驱动标记,所述动作情感词典中包含动作驱动标记和表情驱动标记之间的对应关系;
24、将所述表情驱动标记添加至文本中所述动作驱动标记对应的位置,生成包含表情驱动标记的样本数据的标签。
25、在一种可能的实现方式中,所述样本数据包括由文本形式的指令样本和回复文本样本构成的样本对,其中,所述回复文本样本为包含动作驱动标记和/或表情驱动标记的标签,所述大模型的训练过程包括:
26、将所述文本形式的指令样本作为所述大模型的输入,得到所述大模型输出的估计文本;
27、利用所述回复文本样本作为所述大模型的期望输出,确定所述估计文本和所述期望输出之间的损失;
28、利用所述损失对所述大模型进行调优。
29、根据本公开的一方面,提供了一种数字人驱动装置,包括:
30、指令接收单元,用于接收用户输入的文本形式的指令;
31、回复生成单元,用于响应于接收到所述文本形式的指令,利用大模型得到用于对所述文本形式的指令进行回复的回复文本;其中,所述回复文本中带有驱动标记,所述驱动标记用于指示所述回复文本中需要数字人产生动作和/或表情的位置;所述大模型通过预先训练得到;
32、音频生成单元,用于基于所述回复文本生成音频,并得到所述驱动标记对应的音频播放时间点;
33、播放单元,用于播放所述音频,并在所述驱动标记对应的音频播放时间点,驱动数字人产生动作和/或表情。
34、在一种可能的实现方式中,所述音频生成单元,用于:
35、去除所述回复文本中的驱动标记,得到目标文本;
36、对所述目标文本进行文本转语音操作,得到音频文件,以及所述音频中各音素的时间点;
37、基于所述驱动标记所指示位置的文字的音素,以及所述音频中各音素的时间点,确定所述驱动标记对应的音频播放时间点。
38、在一种可能的实现方式中,所述大模型基于样本数据训练得到,所述样本数据中的标签包含动作驱动标记;所述样本数据的生成过程包括:
39、利用包含动作驱动标记的样本示例,对基于上下文学习的样本生成模型进行训练,得到样本生成模型;
40、利用所述样本生成模型,生成包含动作驱动标记的样本数据。
41、在一种可能的实现方式中,所述大模型基于样本数据训练得到,所述样本数据中的标签包含表情驱动标记,所述样本数据的生成过程包括:
42、对文本进行拆分处理,得到文本片段;
43、对各文本片段进行情绪识别,得到各文本片段的情绪;
44、为各个文本片段添加与所述情绪对应的表情驱动标记,生成包含表情驱动标记的样本数据的标签。
45、在一种可能的实现方式中,所述大模型基于样本数据训练得到,所述样本数据的生成过程包括:
46、对文本进行拆分处理,得到文本片段;
47、对文本片段进行情绪关键词检测,得到文本片段中的情绪关键词;
48、为检测到的情绪关键词添加对应的表情驱动标记,生成包含表情驱动标记的样本数据的标签。
49、在一种可能的实现方式中,所述大模型基于样本数据训练得到,所述样本数据的生成过程包括:
50、针对包含动作驱动标记的文本,根据预设的动作情感词典,确定与所述动作驱动标记对应的表情驱动标记,所述动作情感词典中包含动作驱动标记和表情驱动标记之间的对应关系;
51、将所述表情驱动标记添加至文本中所述动作驱动标记对应的位置,生成包含表情驱动标记的样本数据的标签。
52、在一种可能的实现方式中,所述样本数据包括由文本形式的指令样本和回复文本样本构成的样本对,其中,所述回复文本样本为包含动作驱动标记和/或表情驱动标记的标签,所述大模型的训练过程包括:
53、将所述文本形式的指令样本作为所述大模型的输入,得到所述大模型输出的估计文本;
54、利用所述回复文本样本作为所述大模型的期望输出,确定所述估计文本和所述期望输出之间的损失;
55、利用所述损失对所述大模型进行调优。
56、根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
57、根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
58、在本公开实施例中,在接收用户输入的文本形式的指令后,响应于接收到所述文本形式的指令,利用预先训练的大模型得到用于对所述文本形式的指令进行回复的回复文本,且所述回复文本中带有驱动标记,用于指示所述回复文本中需要数字人产生动作和/或表情的位置;然后基于所述回复文本生成音频,并得到所述驱动标记对应的音频播放时间点;播放所述音频,并在所述驱动标记对应的音频播放时间点,驱动数字人产生动作或表情。由此,预先训练的大模型得到的回复文本中已经自带了驱动标记,来指示回复文本中需要数字人产生动作和/或表情的位置,而无需额外的算法再对大模型输出的文本进行分析检测,使得大模型输出文本后,直接对文本进行语音转换,并依据文本中自带的驱动标记来驱动数字人产生动作或表情,即可及时地将结果展示给用户,效率较高,实时性较好。
59、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
1.一种数字人驱动方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述回复文本生成音频,并得到所述驱动标记对应的音频播放时间点,包括:
3.根据权利要求1所述的方法,其特征在于,所述大模型基于样本数据训练得到,所述样本数据中的标签包含动作驱动标记;所述样本数据的生成过程包括:
4.根据权利要求1所述的方法,其特征在于,所述大模型基于样本数据训练得到,所述样本数据中的标签包含表情驱动标记,所述样本数据的生成过程包括:
5.根据权利要求1所述的方法,其特征在于,所述大模型基于样本数据训练得到,所述样本数据的生成过程包括:
6.根据权利要求1所述的方法,其特征在于,所述大模型基于样本数据训练得到,所述样本数据的生成过程包括:
7.根据权利要求3-6任一所述的方法,其特征在于,所述样本数据包括由文本形式的指令样本和回复文本样本构成的样本对,其中,所述回复文本样本为包含动作驱动标记和/或表情驱动标记的标签,所述大模型的训练过程包括:
8.一种数字人驱动装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。