音频数据的处理方法、装置、设备及存储介质与流程

专利2024-08-13 70

本发明涉及人工智能
技术领域：
，尤其涉及一种音频数据的处理方法、装置、设备及存储介质。
背景技术：
：对于不同场景中的语音播报，为了降低人力成本，目前多采用从文本到语音(texttospeech，tts)播报方式对需要播报的内容或者信息进行播报。对于数据的语音播报，公知方案包括以下两种：第一种，将数据部分，如12345.67元，发送给中台，调用相应的字转音服务，将处理后的数据的音频进行播放。此方法弊端是，若在每个时间段内对大量的数据请求字转音处理时，中台将承受高并发处理，请求数据及下载数据会非常大，容易导致该时间段语音播报出现延迟、响应慢情况。第二种，将数据部分的数字、符号对应的音频单独存放，根据情求数据映射得到相应的音频，拼接音频并播放。此方法弊端是，由于音频文件最小播放时长为1秒，拼接音频后每个数字读音间隔长，使播报的数据部分的语音不连贯，影响体验。技术实现要素：本发明的目的在于提供一种音频数据的处理方法、装置、设备及存储介质，旨在及时、流畅地播报数据部分对应的音频数据。本发明提供一种音频数据的处理方法，包括：对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数，所述字符包括数字及小数点；若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据。本发明还提供一种音频数据的处理方法，包括：对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数，所述字符包括数字及小数点；若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；在接收到语音播报请求后，根据所述语音播报请求确定对应的文案内容，所述文案内容包括多个固定文案及多个待填充的动态文案；确定各个待填充的动态文案对应的业务系统，从对应的业务系统获取业务数据；在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；对于每一业务数据进行分析，若所述业务数据只包括数据部分，则将所述待处理数据及所述业务数据数级的单位作为填充至对应的待填充的动态文案位置的动态文案；获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据；从本地获取所述业务数据数级的单位关联的第二音频数据；从本地获取各个固定文案对应的第三音频数据，按照所述文案内容中固定文案及待填充的动态文案的先后顺序，拼接所述第一音频数据、第二音频数据及第三音频数据，得到拼接后供播报的语音数据。本发明还提供一种音频数据的处理装置，包括：转换模块，用于对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数，所述字符包括数字及小数点；切割模块，用于若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；存储模块，用于去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；获取模块，用于在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；拼接模块，用于获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据。本发明还提供一种计算机设备，所述计算机设备包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的音频数据的处理方法的步骤。本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的音频数据的处理方法的步骤。本发明的有益效果是：本发明首先获取预定字符以预定音频格式存储的音频数据，对音频数据的二进制数据进行切割，得到头部、中间部及尾部，去除头部及部，将中间部作为该字符的发音帧存储在本地，然后，对于需要播报的业务数据，获取各个字符，从本地获取各个字符的发音帧，按序拼接对应的发音帧，最终得到拼接后的音频数据。在播报该音频数据时，每个字符的播报时间小于1秒，使得音频数据能够及时、清晰、流畅地播报。附图说明图1为本发明音频数据的处理方法一实施例的流程示意图；图2为本发明音频数据的处理方法另一实施例的流程示意图；图3为本发明音频数据的处理装置一实施例的结构示意图；图4为本发明计算机设备一实施例的硬件架构的示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。参阅图1所示，是本发明音频数据的处理方法一实施例的流程示意图。该音频数据的处理方法包括以下步骤：步骤s1，对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数，所述字符包括数字及小数点；预定的多个字符包括数字及小数点，数字包括“0－9”。将数字“0－9”及小数点“.”发送至预定的服务器中，通过该服务器提供的字转音服务，得到数字“0－9”中每个数字预定音频格式的音频数据及小数点“.”预定音频格式的音频数据。预定音频格式采用aac音频文件的音频数据传输流(audiodatatransportstream，adts)格式。adts格式的特点是它是一个有同步字的比特流，解码可以在这个流中任何位置开始。adts格式的音频数据可以在任意帧解码，也就是说它每一帧都有头信息。头信息格式如下表1所示：syncwordheader()error_check()raw_data_block()表1adts格式的音频数据的帧头同步字为12比特的“111111111111”，根据adts特性，可知一段完整音频数据可以拆分为有n个头信息的帧，并且每帧都可以进行解码并播放。adts格式的音频数据最小的发音时长为1秒，音频数据经二进制转化后，会得到若干帧，帧数划分无规律，受杂音，电流等人耳无法听到多种因素影响，不同的字符的帧数可能相同或不同。步骤s2，若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；对于帧数大于等于3帧的字符的二进制数据，均可以通过预定的切割方式切割为头部对应的帧、中间部对应的帧及尾部对应的帧。进一步地，预定的切割方式包括：确定所述头部的帧数及尾部的帧数，所述头部的帧数与尾部的帧数相等，所述头部的帧数或尾部的帧数s＝(l－lmod3)/3，其中，l为大于等于3帧的二进制数据的总帧数，mod为取模运算；按照所述头部的帧数及尾部的帧数s对大于等于3帧的二进制数据进行切割，以得到所述头部、中间部及尾部。例如，对于字符“1”音频的二进制数据，其帧数等于3帧，通过公式s＝(l－lmod3)/3确定头部的帧数及尾部的帧数均为1帧，在切割时，将3帧的字符“1”的二进制数据平均切割为包含第1帧二进制数据的头部、包含第2帧二进制数据的中间部及包含第3帧二进制数据的尾部。又如，对于字符“5”音频的二进制数据，其帧数等于7帧，通过公式s＝(l－lmod3)/3确定头部的帧数及尾部的帧数均为2帧，在切割时，将7帧的字符“5”的二进制数据切割为包含第1至2帧二进制数据的头部、包含第3至5帧二进制数据的中间部及包含第6至7帧二进制数据的尾部。字符音频的二进制数据经切割后，头部及尾部的帧一般噪声所占的比率较大，而中间部的帧一般噪声所占的比率较小，切割后，中间部的帧的发音时长小于1秒。步骤s3，去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；将头部及尾部的帧去除，只保留中间部的帧，中间部的帧受噪声的影响相对较小，且能够真实表达字符的语音，因此将中间部的帧作为发音帧。在得到各个字符的发音帧后，将每个字符与相应的发音帧进行关联，并存储关联表及各个字符的发音帧。步骤s4，在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；为了能够播报简洁、清楚的业务数据，本实施例需要对业务数据进行进一步处理，得到待处理数据。对于需要播报的业务数据，确定该业务数据的数级，确定的方法为：获取该业务数据的最大数级，该最大数级使得最终得到的待处理数据的小数点左边最多包括4位数，最少包括1位数。本实施例采用4位分级的方式，其数级包括个级、万级和亿级等，对应数级的单位为个、万、亿。例如，业务数据为111111000000，确定最大数级为亿级，待处理数据为1111.11，数级的单位为单位亿。步骤s5，获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据。将待处理数据进行切割，得到多个单独的字符，例如，对于待处理数据为1111.11，切割后得到的字符包括[1，1，1，1，.，1，1]，根据关联表记录的关联关系，从本地获取[1，1，1，1，.，1，1]这几个字符对应的发音帧(实际上是获取数字1及小数点的发音帧)。获取发音帧后，按照待处理数据中的各个字符的先后顺序，拼接发音帧，拼接后得到第一音频数据。由于每个字符的发音帧为受噪声的影响相对较小且能够真实表达字符的语音，因此能够播报出清晰的业务数据，又由于每个字符的发音时长小于1秒，因此播报业务数据时，字符之间读音间隔短，不会出现读音停顿时间过长的现象，使得读音连贯。本实施例首先获取预定字符以预定音频格式存储的音频数据，对音频数据的二进制数据进行切割，得到头部、中间部及尾部，去除头部及部，将中间部作为该字符的发音帧存储在本地，然后，对于需要播报的业务数据，获取各个字符，从本地获取各个字符的发音帧，按序拼接对应的发音帧，最终得到拼接后的音频数据。在播报该音频数据时，每个字符的播报时间小于1秒，使得音频数据能够及时、清晰、流畅地播报。在其他实施例中，在上述图1的实施例的基础上，所述对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数的步骤之后，还包括：若有字符二进制数据的帧数等于2帧，则将等于2帧的二进制数据切割为包含第1帧的头部及包含第2帧的尾部，去除所述第1帧，将所述第2帧的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地。若有字符二进制数据的帧数等于1帧，则将等于1帧的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地。其中，对于字符音频的二进制数据的帧数等于2帧的，则将该二进制数据切割为包含第一帧的头部及包含第二帧的尾部，去除第一帧，将第二帧作为该字符的发音帧，该发音帧的发音时长小于1秒。对于字符音频的二进制数据的帧数等于1帧的，不做处理，直接将该帧作为该字符的发音帧。参阅图2所示，是本发明音频数据的处理方法另一实施例的流程示意图。该音频数据的处理方法包括以下步骤：步骤s10，对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数，所述字符包括数字及小数点；预定的多个字符包括数字及小数点，数字包括“0－9”。将数字“0－9”及小数点“.”发送至预定的服务器中，通过该服务器提供的字转音服务，得到数字“0－9”中每个数字预定音频格式的音频数据及小数点“.”预定音频格式的音频数据。预定音频格式采用aac音频文件的音频数据传输流(audiodatatransportstream，adts)格式。adts格式的特点是它是一个有同步字的比特流，解码可以在这个流中任何位置开始。adts格式的音频数据可以在任意帧解码，也就是说它每一帧都有头信息。头信息格式可参阅上述表1。adts格式的音频数据的帧头同步字为12比特的“111111111111”，根据adts特性，可知一段完整音频数据可以拆分为有n个头信息的帧，并且每帧都可以进行解码并播放。adts格式的音频数据最小的发音时长为1秒，音频数据经二进制转化后，会得到若干帧，帧数划分无规律，受杂音，电流等人耳无法听到多种因素影响，不同的字符的帧数可能相同或不同。步骤s20，若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；对于帧数大于等于3帧的字符的二进制数据，均可以通过预定的切割方式切割为头部对应的帧、中间部对应的帧及尾部对应的帧。进一步地，预定的切割方式包括：确定所述头部的帧数及尾部的帧数，所述头部的帧数与尾部的帧数相等，所述头部的帧数或尾部的帧数s＝(l－lmod3)/3，其中，l为大于等于3帧的二进制数据的总帧数，mod为取模运算；按照所述头部的帧数及尾部的帧数s对大于等于3帧的二进制数据进行切割，以得到所述头部、中间部及尾部。例如，对于字符“1”音频的二进制数据，其帧数等于3帧，通过公式s＝(l－lmod3)/3确定头部的帧数及尾部的帧数均为1帧，在切割时，将3帧的字符“1”的二进制数据平均切割为包含第1帧二进制数据的头部、包含第2帧二进制数据的中间部及包含第3帧二进制数据的尾部。又如，对于字符“5”音频的二进制数据，其帧数等于7帧，通过公式s＝(l－lmod3)/3确定头部的帧数及尾部的帧数均为2帧，在切割时，将7帧的字符“5”的二进制数据切割为包含第1至2帧二进制数据的头部、包含第3至5帧二进制数据的中间部及包含第6至7帧二进制数据的尾部。字符音频的二进制数据经切割后，头部及尾部的帧一般噪声所占的比率较大，而中间部的帧一般噪声所占的比率较小，切割后，中间部的帧的发音时长小于1秒。步骤s30，去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；将头部及尾部的帧去除，只保留中间部的帧，中间部的帧受噪声的影响相对较小，且能够真实表达字符的语音，因此将中间部的帧作为发音帧。在得到各个字符的发音帧后，将每个字符与相应的发音帧进行关联，并存储关联表及各个字符的发音帧。步骤s40，在接收到语音播报请求后，根据所述语音播报请求确定对应的文案内容，所述文案内容包括多个固定文案及多个待填充的动态文案；其中，有多种可以进行语音播报的文案内容，例如可以是晨会的文案内容或者其他会议的文案内容，各个文案内容存储在本地。当需要进行某种文案内容的语音播报时，在应用程序app中进行点击操作以发起相应的语音播报请求，该语音播报请求中携带有文案内容的标识，通过该标识可以确定对应的文案内容。其中，文案内容中的固定文案是固定不变的，而待填充的动态文案则需要根据实际数据进行填充。例如，对于某支行晨会的固定文案，其为：“昨日aum余额{1111.11}{亿}元，较上日{增加}资产{1111}{万}元。本月{减少}资产{1.11}{亿}元，环比上月{下降}{1.1}％；存款余额{1111.1}{亿}元，较上日{增加}{1111}{万}元，环比上月{增加}{12}％。”其中“{}”中均为待填充的动态文案，需要根据各个业务系统中的实际业务数据进行填充数据；“{上升}、{下降}、{增加}、减少}”等均为需要根据实际业务数据进行分析判断得到；其余汉字部分均为固定文案，其中，“昨日aum余额”为第一个固定文案，“元，较上日”为第二个固定文案，“资产”为第三个固定文案，等等。步骤s50，确定各个待填充的动态文案对应的业务系统，从对应的业务系统获取业务数据；其中，待填充的动态文案的业务数据可以来源于一个业务系统或者多个不同的业务系统，每个待填充的动态文案均会预先标识对应的业务系统，以从该业务系统中获取业务数据。在确定本次语音播报的文案内容后，可以从相应的业务系统中获取业务数据。步骤s60，在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；为了能够播报简洁、清楚的业务数据，本实施例需要对业务数据进行进一步处理，得到待处理数据。对于需要播报的业务数据，确定该业务数据的数级，确定的方法为：获取该业务数据的最大数级，该最大数级使得最终得到的待处理数据的小数点左边最多包括4位数，最少包括1位数。本实施例采用4位分级的方式，其数级包括个级、万级和亿级等，对应数级的单位为个、万、亿。例如，业务数据为111111000000，确定最大数级为亿级，待处理数据为1111.11，数级的单位为单位亿。步骤s70，对于每一业务数据进行分析，若所述业务数据只包括数据部分，则将所述待处理数据及所述业务数据数级的单位作为填充至对应的待填充的动态文案位置的动态文案；例如，上述的文案内容“昨日aum余额{1111.11}{亿}元”，上述待处理数据“1111.11”为填充至第一个{}中的动态文案，数级的单位“亿”为填充至第二个{}中的动态文案。步骤s80，获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据；将待处理数据进行切割，得到多个单独的字符，例如，对于待处理数据为1111.11，切割后得到的字符包括[1，1，1，1，.，1，1]，根据存储的关联表记录的关联关系，从本地获取[1，1，1，1，.，1，1]这几个字符对应的发音帧(实际上是获取数字1及小数点的发音帧)。获取发音帧后，按照待处理数据中的各个字符的先后顺序，拼接发音帧，拼接后得到第一音频数据。由于每个字符的发音帧为受噪声的影响相对较小且能够真实表达字符的语音，因此能够播报出清晰的业务数据，又由于每个字符的发音时长小于1秒，因此播报第一音频数据时，字符之间读音间隔短，不会出现读音停顿时间过长的现象，使得读音连贯。步骤s90，从本地获取所述业务数据数级的单位关联的第二音频数据；步骤s100，从本地获取各个固定文案对应的第三音频数据，按照所述文案内容中固定文案及待填充的动态文案的先后顺序，拼接所述第一音频数据、第二音频数据及第三音频数据，得到拼接后供播报的语音数据。存储的关联表中还记录了数级的单位关联的音频数据、各个固定文案对应的音频数据。通过该关联表中映射的对应关系，可以直接从本地获取数级的单位关联的第二音频数据，文案内容中各个固定文案对应的第三音频数据。按照文案内容中固定文案及待填充的动态文案的先后顺序，拼接第一音频数据、第二音频数据及第三音频数据，得到拼接后供播报的语音数据。本实施例中，首先对预定字符音频数据的二进制数据进行切割，得到头部、中间部及尾部，将中间部作为该字符的发音帧存储在本地，然后在有语音播报请求时，确定请求对应的文案内容，该文案内容包括固定文案及需要根据业务系统中的实际业务数据填充的动态文案，在获取业务数据后，通过对业务数据的分析，得到填充至待填充的动态文案位置的待处理数据及数级的单位，最后从本地获取与待处理数据中各个字符关联的发音帧，拼接后得到第一音频数据，再获取数级的单位关联的第二音频数据及各个固定文案对应的第三音频数据，按序拼接第一音频数据、第二音频数据及第三音频数据，得到拼接后供播报的语音数据，本实施例一方面不需要向服务器发起字转音的请求，从而也不需要从服务器中下载音频数据，能够避免在大量语音播报请求场景下所导致的语音播报延迟、响应慢的问题，使得语音播报及时流畅；另一方面在播报业务数据的音频时，每个字符的播报时间小于1秒，业务数据音频的播报清晰、流畅。在其他实施例中，在图2的实施例的基础上，所述对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数的步骤之后，还包括：若有字符二进制数据的帧数等于2帧，则将等于2帧的二进制数据切割为包含第1帧的头部及包含第2帧的尾部，去除所述第1帧，将所述第2帧的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地。若有字符二进制数据的帧数等于1帧，则将等于1帧的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地。其中，对于字符音频的二进制数据的帧数等于2帧的，则将该二进制数据切割为包含第一帧的头部及包含第二帧的尾部，去除第一帧，将第二帧作为该字符的发音帧，该发音帧的发音时长小于1秒。对于字符音频的二进制数据的帧数等于1帧的，不做处理，直接将该帧作为该字符的发音帧。在其他实施例中，在图2的实施例的基础上，所述在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据的步骤之后，还包括：若所述业务数据包括符号及数据部分，则获取所述符号对应的判断结果，将所述待处理数据、所述业务数据数级的单位及所述判断结果作为填充至对应的待填充的动态文案位置的动态文案；所述获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据的步骤之后，还包括：从本地获取所述判断结果关联的第四音频数据；按照所述文案内容中固定文案及待填充的动态文案的先后顺序，拼接所述第一音频数据、第二音频数据、第三音频数据及第四音频数据，得到拼接后供播报的语音数据。其中，如果业务数据包括符号及数据部分，则数据部分的处理如上所述，对于符号，符号包括正号及负号，如果是正号，则判断结果为“增加”、“上升”等，如果是负号，则判断结果为“减少”、“下降”等，而对于正号对应的“增加”、“上升”(或者对于负号对应的“减少”、“下降”)，具体取哪一个词文案内容中已经根据实际情况预定。例如，对于业务数据+11110000，确定最大数级为万级，待处理数据为1111，数级的单位为单位万，判断结果为正号对应的增加。那么，对于上述的文案内容“较上日{增加}资产{1111}{万}元”，上述判断结果“增加”为填充至第一个{}中的动态文案，待处理数据“1111”为填充至第二个{}中的动态文案，数级的单位“万”为填充至第三个{}中的动态文案。其中，存储的关联表中还记录了判断结果关联的音频数据。通过该关联表中映射的对应关系，可以直接从本地获取判断结果关联的第四音频数据。按照文案内容中固定文案及待填充的动态文案的先后顺序，拼接第一音频数据、第二音频数据、第三音频数据及第四音频数据，得到拼接后供播报的语音数据。在一实施例中，本发明提供一种音频数据的处理装置，该音频数据的处理装置与上述实施例中方法一一对应。如图3所示，该音频数据的处理装置包括：转换模块101，用于对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数，所述字符包括数字及小数点；切割模块102，用于若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；存储模块103，用于去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；获取模块104，用于在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；拼接模块105，用于获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据。音频数据的处理装置的具体限定可以参见上文中对于音频数据的处理方法的限定，在此不再赘述。上述音频数据的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。在一个实施例中，提供了一种计算机设备，该计算机设备是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述计算机设备可以是pc(personalcomputer，个人电脑)，或者是智能手机、平板电脑、计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。如图4所示，所述计算机设备可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的计算机程序。需要指出的是，图4仅示出了具有组件11－13的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，存储器11可以是非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。本实施例中，存储器11的可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如存储本发明一实施例中的计算机程序的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。所述处理器12在一些实施例中可以是中央处理器(centralprocessingunit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片，用于运行所述存储器11中存储的程序代码或者处理数据，例如运行计算机程序等。所述网络接口13可包括标准的无线网络接口、有线网络接口，该网络接口13通常用于在所述计算机设备与其他电子设备之间建立通信连接。所述计算机程序存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器12执行，以实现如图1所示的步骤s1至步骤s5，或者实现如图2所示的步骤s10至步骤s100。在一个实施例中，本发明提供了一种计算机可读存储介质，计算机可读存储介质可以是非易失性和/或易失性存储器，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中音频数据的处理方法的步骤，例如实现如图1所示的步骤s1至步骤s5，或者实现如图2所示的步骤s10至步骤s100。为避免重复，这里不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序在执行时，可包括如上述各方法的实施例的流程。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的
技术领域：
，均同理包括在本发明的专利保护范围内。当前第1页1 2 3
技术特征：

1.一种音频数据的处理方法，其特征在于，包括：

对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数，所述字符包括数字及小数点；

若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；

去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；

在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；

获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据。

2.根据权利要求1所述的音频数据的处理方法，其特征在于，所述预定的切割方式包括：

确定所述头部的帧数及尾部的帧数，所述头部的帧数与尾部的帧数相等，所述头部的帧数或尾部的帧数s＝(l－lmod3)/3，其中，l为大于等于3帧的二进制数据的总帧数，mod为取模运算；

按照所述头部的帧数及尾部的帧数s对大于等于3帧的二进制数据进行切割，以得到所述头部、中间部及尾部。

3.根据权利要求1或2所述的音频数据的处理方法，其特征在于，所述对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数的步骤之后，还包括：

若有字符二进制数据的帧数等于2帧，则将等于2帧的二进制数据切割为包含第1帧的头部及包含第2帧的尾部，去除所述第1帧，将所述第2帧的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地。

若有字符二进制数据的帧数等于1帧，则将等于1帧的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地。

4.一种音频数据的处理方法，其特征在于，包括：

若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；

去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；

在接收到语音播报请求后，根据所述语音播报请求确定对应的文案内容，所述文案内容包括多个固定文案及多个待填充的动态文案；

确定各个待填充的动态文案对应的业务系统，从对应的业务系统获取业务数据；

在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；

对于每一业务数据进行分析，若所述业务数据只包括数据部分，则将所述待处理数据及所述业务数据数级的单位作为填充至对应的待填充的动态文案位置的动态文案；

获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据；

从本地获取所述业务数据数级的单位关联的第二音频数据；

从本地获取各个固定文案对应的第三音频数据，按照所述文案内容中固定文案及待填充的动态文案的先后顺序，拼接所述第一音频数据、第二音频数据及第三音频数据，得到拼接后供播报的语音数据。

5.根据权利要求4所述的音频数据的处理方法，其特征在于，所述预定的切割方式包括：

按照所述头部的帧数及尾部的帧数s对大于等于3帧的二进制数据进行切割，以得到所述头部、中间部及尾部。

6.根据权利要求4或5所述的音频数据的处理方法，其特征在于，所述对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数的步骤之后，还包括：

若有字符二进制数据的帧数等于1帧，则将等于1帧的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地。

7.根据权利要求4所述的音频数据的处理方法，其特征在于，所述在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据的步骤之后，还包括：

若所述业务数据包括符号及数据部分，则获取所述符号对应的判断结果，将所述待处理数据、所述业务数据数级的单位及所述判断结果作为填充至对应的待填充的动态文案位置的动态文案；

所述获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据的步骤之后，还包括：

从本地获取所述判断结果关联的第四音频数据；

按照所述文案内容中固定文案及待填充的动态文案的先后顺序，拼接所述第一音频数据、第二音频数据、第三音频数据及第四音频数据，得到拼接后供播报的语音数据。

8.一种音频数据的处理装置，其特征在于，包括：

转换模块，用于对于预定的多个字符，获取每个字符预定音频格式的音频数据，将每个字符的音频数据转换为二进制数据，获取每个字符的二进制数据对应的帧数，所述字符包括数字及小数点；

切割模块，用于若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将大于等于3帧的二进制数据切割为头部、中间部及尾部；

存储模块，用于去除所述头部及所述尾部，将所述中间部对应的二进制数据作为对应字符的发音帧，并将所述发音帧与对应字符关联后存储在本地；

获取模块，用于在获取到业务数据后，确定所述业务数据的数级，基于所述数级获取所述业务数据对应的待处理数据；

拼接模块，用于获取所述待处理数据中的各个字符，从本地获取与所述待处理数据中的各个字符分别关联的发音帧，按照所述待处理数据中的各个字符的先后顺序拼接对应的发音帧，得到拼接后供播报的第一音频数据。

9.一种计算机设备，所述计算机设备包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的音频数据的处理方法的步骤，或者实现如权利要求4至7中任一项所述的音频数据的处理方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的音频数据的处理方法的步骤，或者实现如权利要求4至7中任一项所述的音频数据的处理方法的步骤。

技术总结
本发明涉及一种人工智能技术，揭露了一种音频数据的处理方法、装置、设备及存储介质，该方法包括：获取每个预定字符预定音频格式的音频数据，转换为二进制数据，获取对应的帧数；若有字符二进制数据的帧数大于等于3帧，则采用预定的切割方式将二进制数据切割为头部、中间部及尾部；将中间部对应的二进制数据作为对应字符的发音帧，并将发音帧与对应字符关联后存储在本地；在获取到业务数据后，确定业务数据的数级，基于数级获取业务数据对应的待处理数据；获取待处理数据中的各个字符，从本地获取与待处理数据中的各个字符分别关联的发音帧，按序拼接对应的发音帧，得到第一音频数据。本发明能够及时、流畅地播报数据部分对应的音频数据。

技术研发人员：李昊;刘方
受保护的技术使用者：平安银行股份有限公司
技术研发日：2020.12.22
技术公布日：2021.04.06

转载请注明原文地址:https://xbbs.6miu.com/read-21131.html