音频比对方法、装置、设备、计算机可读存储介质及产品与流程

专利2025-04-20  19


本技术涉及通信,尤其是指一种音频比对方法、装置、设备、计算机可读存储介质及产品。


背景技术:

1、在语音合成技术越来越成熟的环境下,市场上有很多应用程序都提供了听书功能,对于如何检查听书功能,或者是音频输出内容是否与期望的一致;现有的测试方法主要依赖于人工操作,即依赖测试人员对音频信号进行主观判断,具体为测试人员看着文本,听着播放的音频,人为判断播放的内容与当前文本是否一致。

2、这种人工测试不仅耗费大量时间和成本,而且由于人为因素的存在,其可靠性和准确性往往无法得到保证。特别是在音频卡顿、语音和文字同步性、以及多语音包差异评估等方面,人工测试依赖于主观判断,缺乏科学的标准定义,从而难以确保测试结果的客观性和一致性。


技术实现思路

1、本技术的目的在于提供一种音频比对方法、装置、设备、计算机可读存储介质及产品,以解决现有技术中通过人工测试音频输出内容与文本内容是否一致的方式无法保证可靠性及准确性的问题。

2、为了解决上述问题,本技术实施例提供一种音频比对方法,包括:

3、获取第一路音频和第二路音频;所述第一路音频通过对目标文本的文字识别及音频编码获得,所述第二路音频通过对目标文本的音频播放获得;

4、分别对所述第一路音频和所述第二路音频进行采样,得到第一帧信号集合和第二帧信号集合;所述第一帧信号集合包含的帧信号数量与所述第二帧信号集合包含的帧信号数量相同;

5、根据所述第二帧信号集合以及预设临界带宽,确定所述第二帧信号集合中每一帧信号的频谱包络窗;

6、将所述第二帧信号集合中每一帧信号的频谱包络窗分别在所述第一帧信号集合的对应帧信号的频谱包络线窗口进行平移,得到第二帧信号集合中每一帧信号与第一帧信号集合中对应帧信号的音频相似度;

7、根据所述音频相似度,确定所述第一路音频和所述第二路音频的音频比对结果。

8、其中,根据所述音频相似度,确定所述第一路音频和所述第二路音频的音频比对结果,包括:

9、将所述第二帧信号集合中的每一帧信号对应的音频相似度分别与第一阈值进行比对;

10、在第一帧信号对应的音频相似度大于或者等于所述第一阈值的情况下,确定所述第一帧信号为匹配帧信号;或者,在第一帧信号对应的音频相似度小于所述第一阈值的情况下,确定所述第一帧信号为不匹配帧信号;其中,所述第一帧信号为所述第二帧信号集合中的任一帧信号。

11、其中,所述方法还包括:

12、根据所述不匹配帧信号,确定所述不匹配帧信号对应的音频时间戳,和/或,确定所述不匹配帧信号在所述目标文本的位置并标记。

13、其中,将所述第二帧信号集合中每一帧信号的频谱包络窗分别在所述第一帧信号集合的对应帧信号的频谱包络线窗口进行平移,得到第二帧信号集合中每一帧信号与第一帧信号集合中对应帧信号的音频相似度,包括:

14、针对所述第二帧信号集合中每一个帧信号的频谱包络窗分别进行第一操作,所述第一操作包括:

15、将所述第二帧信号集合中的一个帧信号的频谱包络窗在所述第一帧信号集合的对应帧信号的频谱包络线窗口中沿纵轴平移;其中,平移的区间为所述第一帧信号集合的纵轴最小值到最大值,平移的步长为所述第一帧信号集合的纵轴最小值和最大值的差值的整数倍;所述纵轴用于指示所述帧信号的响度;

16、获取每步平移得到的在临界频带的中心频率的音频相似度指数;

17、将音频相似度指数的最大值作为所述第二帧信号集合中的一个帧信号与第一帧信号集合中的对应帧信号的音频相似度。

18、其中,所述将所述第二帧信号集合中的一个帧信号的频谱包络窗在所述第一帧信号集合的对应帧信号的频谱包络线窗口中沿纵轴平移之前,所述方法还包括:

19、对所述第一帧信号集合进行分帧操作;

20、对分帧得到的每一帧信号进行特征提取、加窗、快速傅里叶变换后,得到每一帧信号的频谱包络线;

21、根据所述每一帧信号的频谱包络线,确定所述第一帧信号集合的每一帧信号的频谱包络线窗口。

22、其中,所述根据所述第二帧信号集合以及预设临界带宽,确定所述第二帧信号集合中每一帧信号的频谱包络窗,包括:

23、对所述第二帧信号集合进行分帧操作;

24、对分帧得到的每一帧信号进行特征提取、加窗、快速傅里叶变换后,得到每一帧信号的频谱分量以及每一帧信号的频谱包络线;

25、根据预设临界带宽,将频域范围划分为多个临界频带;

26、根据每一帧信号的频谱分量在临界频带各中心频率的值,得到带通阈值序列;

27、以所述带通阈值序列中的每个值为中心分别设置上限值和下限值,并利用得到的带通窗口序列确定所述频谱包络窗。

28、其中,分别对所述第一路音频和所述第二路音频进行采样,得到第一帧信号集合和第二帧信号集合之前,所述方法包括:

29、将第二路音频的起止时间点与第一路音频的起止时间点对齐;

30、分别对所述第一路音频和所述第二路音频进行采样,得到第一帧信号集合和第二帧信号集合,包括:

31、对起止时间点对齐后的第一路音频和第二路音频分别进行预设采样帧数量的采样,得到第一帧信号集合和第二帧信号集合。

32、本技术实施例还提供一种音频比对装置,包括:

33、获取模块,用于获取第一路音频和第二路音频;所述第一路音频通过对目标文本的文字识别及音频编码获得,所述第二路音频通过对目标文本的音频播放获得;

34、采样模块,用于分别对所述第一路音频和所述第二路音频进行采样,得到第一帧信号集合和第二帧信号集合;所述第一帧信号集合包含的帧信号数量与所述第二帧信号集合包含的帧信号数量相同;

35、第一确定模块,用于根据所述第二帧信号集合以及预设临界带宽,确定所述第二帧信号集合中每一帧信号的频谱包络窗;

36、第二确定模块,用于将所述第二帧信号集合中每一帧信号的频谱包络窗分别在所述第一帧信号集合的对应帧信号的频谱包络线窗口进行平移,得到第二帧信号集合中每一帧信号与第一帧信号集合中对应帧信号的音频相似度;

37、第三确定模块,用于根据所述音频相似度,确定所述第一路音频和所述第二路音频的音频比对结果。

38、本技术实施例还提供一种音频比对设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行所述程序时实现如上所述的音频比对方法。

39、本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的音频比对方法中的步骤。

40、本技术实施例还提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上所述的音频比对方法的步骤。

41、本技术的上述技术方案至少具有如下有益效果:

42、本技术实施例的音频比对方法、装置、设备、计算机可读存储介质及产品中,根据对目标文本的文字识别及音频编码获得的第一路音频以及对目标文本的音频播放获得的第二路音频的自动比对,并根据音频相似度对比直接获取音频比对结果,从而将繁琐的音频测试任务改为全流程自动化比对测试,提高了测试效率和准确率。


技术特征:

1.一种音频比对方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述音频相似度,确定所述第一路音频和所述第二路音频的音频比对结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,将所述第二帧信号集合中每一帧信号的频谱包络窗分别在所述第一帧信号集合的对应帧信号的频谱包络线窗口进行平移,得到第二帧信号集合中每一帧信号与第一帧信号集合中对应帧信号的音频相似度,包括:

5.根据权利要求1或4所述的方法,其特征在于,所述将所述第二帧信号集合中的一个帧信号的频谱包络窗在所述第一帧信号集合的对应帧信号的频谱包络线窗口中沿纵轴平移之前,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述第二帧信号集合以及预设临界带宽,确定所述第二帧信号集合中每一帧信号的频谱包络窗,包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,分别对所述第一路音频和所述第二路音频进行采样,得到第一帧信号集合和第二帧信号集合之前,所述方法包括:

8.一种音频比对装置,其特征在于,包括:

9.一种音频比对设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的音频比对方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的音频比对方法中的步骤。

11.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7中任一项所述的音频比对方法的步骤。


技术总结
本申请提供一种音频比对方法、装置、设备、计算机可读存储介质及产品,该方法:获取第一路音频和第二路音频;分别对第一路音频和第二路音频进行采样,得到第一帧信号集合和第二帧信号集合;根据第二帧信号集合以及预设临界带宽,确定第二帧信号集合中每一帧信号的频谱包络窗;将第二帧信号集合中每一帧信号的频谱包络窗分别在第一帧信号集合的对应帧信号的频谱包络线窗口进行平移,得到第二帧信号集合中每一帧信号与第一帧信号集合中对应帧信号的音频相似度;根据音频相似度,确定第一路音频和第二路音频的音频比对结果;本申请实施例将繁琐的音频测试任务改为全流程自动化比对测试,提高了测试效率和准确率。

技术研发人员:梁守青
受保护的技术使用者:咪咕数字传媒有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23652.html