基于多模态信息的摘要生成方法、装置、设备及存储介质与流程

专利2025-04-12  22


本申请涉及人工智能、金融和数字医疗,尤其涉及一种基于多模态信息的摘要生成方法、装置、设备及存储介质。


背景技术:

1、随着通信技术的飞速发展,在线会议工具已成为跨企业、跨区域沟通协作的新兴模式。在线会议具有不受时间和空间限制的独特优势,使得人们可以在任何时间、任何地点进行会议讨论,在线沟通的效率以及方便程度大大提升。在线会议也产生了大量的会议数据,用户通常被冗长或零碎的信息所围绕,为了帮助用户从繁杂的会议信息中快速定位核心内容,摘要技术应运而生。

2、现有业内的智能会议摘要技术通常是先通过语音识别(asr)系统将会议音频转换为文本,然后对文本进行处理,基于文本层面使用自然语言处理技术来生成摘要。然而,由于多人会议嘈杂纷乱的环境以及asr系统的局限性,会导致音频识别结果不准确、文本信息有限等问题,这些问题会进一步导致生成的摘要不够准确。

3、另一方面,在智能会议中,会议通常会产生和会议相关的图像资料,例如演讲幻灯片等,在一般的会议摘要生成方法中没有利用到这些额外的信息,导致生成的摘要不够全面。


技术实现思路

1、本申请实施例的目的在于提出一种基于多模态信息的摘要生成方法、装置、设备及存储介质,以解决现有会议中生成的摘要准确性低、不够全面的技术问题。

2、为了解决上述技术问题,本申请实施例提供一种基于多模态信息的摘要生成方法,采用了如下所述的技术方案:

3、获取目标音频数据和对应的目标图像数据;

4、将所述目标音频数据输入训练好的语音识别模型中进行处理,得到语音识别文本,并对所述目标图像数据进行文本识别,得到图像识别文本;

5、对所述语音识别文本进行置信度过滤,得到过滤识别文本;

6、根据所述图像识别文本从所述过滤识别文本中提取与所述目标图像数据对应的目标文本;

7、将所述目标文本、所述目标图像数据和所述图像识别文本输入训练好的摘要生成模型中,生成文本摘要。

8、为了解决上述技术问题,本申请实施例还提供一种基于多模态信息的摘要生成装置,采用了如下所述的技术方案:

9、获取模块,用于获取目标音频数据和目标图像数据;

10、文本识别模块,用于将所述目标音频数据输入训练好的语音识别模型中进行处理,得到语音识别文本,并对所述目标图像数据进行文本识别,得到图像识别文本;

11、过滤模块,用于对所述语音识别文本进行置信度过滤,得到过滤识别文本;

12、匹配模块,用于根据所述图像识别文本从所述过滤识别文本中提取与所述目标图像数据对应的目标文本;

13、生成模块,用于将所述目标文本、所述目标图像数据和所述图像识别文本输入训练好的摘要生成模型中,生成文本摘要。

14、为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

15、该计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于多模态信息的摘要生成方法的步骤。

16、为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

17、所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于多模态信息的摘要生成方法的步骤。

18、与现有技术相比,本申请主要有以下有益效果:

19、本申请提供一种基于多模态信息的摘要生成方法,通过语音识别模型对获取的目标音频数据进行识别,得到语音识别文本,并对获取的目标图像数据进行文本识别,得到图像识别文本;然后对语音识别文本进行置信度过滤,能够去除不准确不流畅的文本片段,提高了文本的准确性;根据图像识别文本提取过滤识别文本中与目标图像数据对应的目标文本,将目标文本、目标图像数据和图像识别文本输入训练好的摘要生成模型中生成文本摘要,能够丰富摘要的内容来源,增加摘要的多样性,使得生成的摘要更加全面,进一步提高摘要生成的效率和准确性。



技术特征:

1.一种基于多模态信息的摘要生成方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述语音识别模型包括识别切分层、声学特征提取层、声学单元识别层和语音识别层;所述将所述目标音频数据输入训练好的语音识别模型中进行处理,得到语音识别文本的步骤包括:

3.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述对所述语音识别文本进行置信度过滤,得到过滤识别文本的步骤包括:

4.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述根据所述图像识别文本从所述过滤识别文本中提取与所述目标图像数据对应的目标文本的步骤包括:

5.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述摘要生成模型包括图像特征提取层、文本特征提取层、特征融合层、编码器层以及解码器层;所述将所述目标文本、所述目标图像数据和所述图像识别文本输入训练好的摘要生成模型中,生成文本摘要的步骤包括:

6.根据权利要求5所述的基于多模态信息的摘要生成方法,其特征在于,所述编码器层包括编码嵌入子层、多头注意力子层和前馈网络子层;所述通过所述编码器层对所述多模态融合特征进行注意力计算,得到语义增强特征的步骤包括:

7.根据权利要求5所述的基于多模态信息的摘要生成方法,其特征在于,所述解码器层包括位置嵌入层、掩码多头注意力子层、多头注意力子层、前馈网络子层和输出层;所述通过所述解码器层对所述语义增强特征进行文本生成,输出文本摘要的步骤包括:

8.一种基于多模态信息的摘要生成装置,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于多模态信息的摘要生成方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于多模态信息的摘要生成方法的步骤。


技术总结
本申请属于人工智能领域,涉及一种基于多模态信息的摘要生成方法,包括将目标音频数据输入语音识别模型中进行处理,得到语音识别文本,并对目标图像数据进行文本识别,得到图像识别文本;对语音识别文本进行置信度过滤,得到过滤识别文本;从过滤识别文本中提取与目标图像数据对应的目标文本;将目标文本、目标图像数据和图像识别文本输入摘要生成模型中,生成文本摘要。本申请还提供一种基于多模态信息的摘要生成装置、设备及存储介质。此外,本申请还涉及区块链技术,目标音频数据和目标图像数据可存储于区块链中。本申请能够增加摘要的多样性,提高摘要生成的效率和准确性。

技术研发人员:张旭龙,王健宗,彭俊清
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23363.html