融合多模态特征的双塔实体识别方法、装置、设备及介质与流程

专利2025-07-12  3


本申请涉及实体识别,尤其涉及一种融合多模态特征的双塔实体识别方法、装置、计算机设备及存储介质。


背景技术:

1、互联网的发展使各个垂直领域的数据呈指数增长,例如通信领域、医疗领域、新闻领域等。巨量的信息对数据的高效知识化是一个挑战,信息提取任务应运而生。根据信息的数据组织形式,可以将数据划分为结构化数据、半结构化数据和非结构化数据。其中,非结构化数据的占比是最高的,也作为了音频、视频等信息传播的载体,往往作为信息提取的数据来源。信息提取任务是指在非结构化的自然语言文本中提取出既定本体设计规定的实体、关系、事件等信息,并以结构化的数据为输出。根据国际自动内容抽取评测会议(automatic content extraction,ace)的划分,命名实体识别与分类是信息提取的关键任务之一。这是因为实体是其他一系列复杂任务的基础,例如知识图谱构建、机器翻译和问答系统等。在这些任务中,只有将最小粒度的知识节点准确无误地识别出来,后续的高层次的信息才可能正确抽取,例如知识图谱的三元组、机器翻译的领域术语和问答系统的答案。

2、以普通平整实体(flat named entity,fne)为例,fne的识别与分类任务是后续复杂任务学习的基础,良好的抽取表现可有效地减少下游复杂任务面临的错误传播问题。因此,平整实体识别与分类任务的表现可以提高后续的信息提取效果,提高各垂直领域的信息掌握水平。但是,平整实体识别与分类目前面临的技术缺点有两个:第一个由于汉语是竹式结构,有着以零驭整的结构开放性特点,自然文本的视点可以不断地切换和转变,导致对自然语言文本的自身含义特征挖掘欠佳。第二个是当前通常将自然文本和标签孤立后分而治之,即前者作为输入,后者作为金标指导模型的学习,导致知识提示匮乏,使得实体识别准确性低。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种融合多模态特征的双塔实体识别方法、装置、设备及介质,以解决上述现有技术中存在的至少一个问题。

2、第一方面,本申请实施例是这样实现的,提供了一种融合多模态特征的双塔实体识别方法,包括:

3、获取待识别文本数据,所述待识别文本数据包括标签;

4、通过预设提示策略,将所述待识别文本数据与所述标签进行级联表示,得到输出序列;

5、基于所述输出序列,得到契文图像特征、触觉感知特征以及视觉感知特征,对所述契文图像特征、触觉感知特征以及视觉感知特征进行特征融合,得到图像稠密特征向量;

6、基于所述输出序列,预测得到文本稠密特征向量;

7、将所述图像稠密特征向量以及文本稠密特征向量进行特征融合,得到融合特征;

8、基于所述融合特征,确定待提取实体的起始边界以及结束边界,以基于所述起始边界以及结束边界,提取所述待提取实体的实体片段。

9、第二方面,提供了一种融合多模态特征的双塔实体识别装置,包括:

10、待识别文本数据获取单元,用于获取待识别文本数据,所述待识别文本数据包括标签;

11、文本与标签联合单元,用于通过预设提示策略,将所述待识别文本数据与所述标签进行级联表示,得到输出序列;

12、图像稠密特征向量生成单元,用于基于所述输出序列,得到契文图像特征、触觉感知特征以及视觉感知特征,对所述契文图像特征、触觉感知特征以及视觉感知特征进行特征融合,得到图像稠密特征向量;

13、文本稠密特征向量生成单元,用于基于所述输出序列,预测得到文本稠密特征向量;

14、多模态特征融合单元,用于将所述图像稠密特征向量以及文本稠密特征向量进行特征融合,得到融合特征;

15、实体识别单元,用于基于所述融合特征,确定待提取实体的起始边界以及结束边界,以基于所述起始边界以及结束边界,提取所述待提取实体的实体片段。

16、第三方面,提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如所述融合多模态特征的双塔实体识别方法。

17、第四方面,提供了一种可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的融合多模态特征的双塔实体识别方法。

18、上述融合多模态特征的双塔实体识别方法、装置、计算机设备及存储介质,其方法实现,包括:获取待识别文本数据,所述待识别文本数据包括标签;通过预设提示策略,将所述待识别文本数据与所述标签进行级联表示,得到输出序列;基于所述输出序列,得到契文图像特征、触觉感知特征以及视觉感知特征,对所述契文图像特征、触觉感知特征以及视觉感知特征进行特征融合,得到图像稠密特征向量;基于所述输出序列,预测得到文本稠密特征向量;将所述图像稠密特征向量以及文本稠密特征向量进行特征融合,得到融合特征;基于所述融合特征,确定待提取实体的起始边界以及结束边界,以基于所述起始边界以及结束边界,提取所述待提取实体的实体片段。本申请实施例中,将孤立的文本和标签进行融合,以阅读理解的视角开展平整实体识别与分类的任务,并且在自然语言字粒度下融合契文、视觉、触觉三种图像特征以增强文本特征挖掘能力,提升最小粒度的语义掌握水平,以提高实体分类识别的准确性。



技术特征:

1.一种融合多模态特征的双塔实体识别方法,其特征在于,所述方法,包括:

2.如权利要求1所述的融合多模态特征的双塔实体识别方法,其特征在于,所述通过预设提示策略,将所述待识别文本数据与所述标签进行级联表示,得到输出序列,包括:

3.如权利要求1所述的融合多模态特征的双塔实体识别方法,其特征在于,所述基于所述输出序列,得到契文图像特征、触觉感知特征以及视觉感知特征,包括:

4.如权利要求1或3所述的融合多模态特征的双塔实体识别方法,其特征在于,所述对所述契文图像特征、触觉感知特征以及视觉感知特征进行特征融合,得到图像稠密特征向量,包括:

5.如权利要求1所述的融合多模态特征的双塔实体识别方法,其特征在于,所述基于所述融合特征,确定待提取实体的起始边界以及结束边界,包括:

6.如权利要求1或5所述的融合多模态特征的双塔实体识别方法,其特征在于,所述起始边界以及结束边界分别包括多个,所述基于所述起始边界以及结束边界,提取所述待提取实体的实体片段,包括:

7.如权利要求1所述的融合多模态特征的双塔实体识别方法,其特征在于,所述将所述图像稠密特征向量以及文本稠密特征向量进行特征融合,得到融合特征,包括:

8.一种融合多模态特征的双塔实体识别装置,其特征在于,所述装置,包括:

9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7任一项所述的融合多模态特征的双塔实体识别方法。

10.一种可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7任一项所述的融合多模态特征的双塔实体识别方法。


技术总结
本申请公开了融合多模态特征的双塔实体识别方法、装置、设备及介质,其方法实现,包括:获取待识别文本数据,其包括标签;通过预设提示策略,将待识别文本数据与标签进行级联表示,得到输出序列;基于输出序列,得到契文图像特征、触觉感知特征以及视觉感知特征,并进行特征融合,得到图像稠密特征向量;基于输出序列,预测得到文本稠密特征向量;将图像稠密特征向量以及文本稠密特征向量进行特征融合,得到融合特征;基于融合特征,确定待提取实体的起始边界以及结束边界,以提取待提取实体的实体片段。将孤立的文本和标签进行融合,以阅读理解的视角开展平整实体识别与分类任务,且融合契文、触觉、视觉三种图像特征以增强文本特征挖掘能力。

技术研发人员:葛昊杰,耿永建,胡程忆
受保护的技术使用者:卓望信息技术(北京)有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-26102.html