本发明涉及数据处理,特别是一种基于数据增强的多模态实体连接方法。
背景技术:
1、实体链接(entity linking)是自然语言处理(nlp)和信息检索领域中的一项关键技术,它对于理解和组织大量非结构化数据至关重要。在现实世界中,无论是在线新闻、社交媒体帖子还是学术论文,人们在文本中频繁提及各种实体,如人名、地点、组织等。将这些提及与知识库中的相应实体正确链接起来,可以带来重要价值,例如,通过实体链接,可以将分散在不同文档中的信息整合到统一的知识框架中,形成更加丰富和结构化的知识表示;实体链接也是构建和维护知识图谱的关键步骤,有助于将新的信息与已有的知识结构相连接;在自动化问答系统、推荐系统和虚拟助手等应用中,实体链接是实现智能理解和响应用户查询的基础。
2、实体链接的重要性在多模态数据环境中得到了进一步的凸显。随着数字内容的爆炸性增长,不仅在文本中遇到提及实体,而且在图像、视频和其他视觉媒体中也频繁遇到。多模态实体链接(multimodal entity linking, mel)任务的重要性在于:多模态数据提供了比纯文本更丰富的信息。通过将文本中的提及与视觉内容相结合,可以更全面地理解实体的上下文和语义;视觉信息可以辅助解决文本中的歧义问题,例如,通过图像确认提及的实体是某个特定的地标或人物;在搜索引擎、社交媒体和推荐系统中,多模态实体链接可以提供更加丰富和直观的搜索结果,从而增强用户体验;在多模态数据中,实体链接有助于发现和构建跨媒体的知识连接,促进新知识的生成和旧知识的扩展。
3、因此,实体链接不仅是连接文本与知识库的桥梁,也是实现信息自动化处理和智能应用的核心技术。然而,多模态实体链接面临着一系列挑战。一是信息融合的复杂性:如何有效地结合来自不同模态的信息,以实现对实体的准确识别和链接,是一个技术难题。二是视觉语义理解的局限性:尽管计算机视觉技术取得了巨大进步,但理解和解释视觉内容中的语义信息仍然是一个挑战。三是数据的多样性和噪声:多模态数据往往包含噪声和不完整的信息,这可能会影响实体链接的准确性。
4、现有技术方案在多模态实体链接任务中面临的挑战主要包括对视觉信息的忽视、领域知识的缺乏、多模态信息融合的复杂性、以及在特定数据集上的过度建模。
5、在多模态实体链接的研究领域,现有的技术方案虽然取得了一定的进展,但仍存在一些显著的局限性。首先,基于传统文本编码器的方法,如tf-idf和word2vec,以及lstm或bert编码器,主要集中于文本信息的处理,而未能充分利用视觉信息的补充作用。这限制了它们在处理文本歧义和噪声图像方面的性能。
6、其次,自回归实体检索方法,例如blink,虽然尝试通过生成唯一名称来增强实体识别,但可能过于依赖文本信息,忽视了视觉内容的潜在价值。此外,基于深度学习的多模态网络,如深度零样本模型,虽然在特定任务上表现出色,但可能需要大量的标注数据,并且在多模态信息融合方面存在复杂性。
7、进一步地,基于图匹配和多模态共注意机制的方法,如二分图匹配问题和多模态共注意机制,虽然尝试解决多模态信息融合的问题,但在处理复杂数据和泛化能力方面可能存在局限。大语言模型虽然在文本处理方面具有强大的能力,但它们通常缺乏特定领域的知识,这对于mel任务的成功至关重要。
技术实现思路
1、为解决现有技术中存在的问题,本发明的目的是提供一种基于数据增强的多模态实体连接方法,本发明提高了多模态实体链接的准确性和效率。
2、为实现上述目的,本发明采用的技术方案是:一种基于数据增强的多模态实体连接方法,包括以下步骤:
3、步骤1、利用大语言模型对实体增强:通过大语言模型对实体描述进行摘要,设计指令明确指出摘要的目标,通过设计的指令对实体描述进行处理,提取关键信息同时生成摘要,并对摘要进行优化;
4、步骤2、利用多模态大语言模型对语义信息增强:多模态大语言模型通过融合文本和视觉特征生成增强的信息描述,信息描述用于提炼和强调信息的关键方面,包括实体的名称、类型、功能及行为特征、物理或结构属性,以及从视觉信息中提取的空间结构、外观形态、颜色纹理的视觉特征,使用提示模板指导多模态大语言模型生成更准确和相关的信息描述,生成的增强信息描述用于在实体链接过程中,与候选实体进行匹配确定最佳链接;
5、步骤3、检索增强:通过检索技术来扩展和优化候选实体集合,从而提高实体链接的准确性;
6、步骤4、决策性选择使用大语言模型来从检索增强得到的候选实体集合中选择最佳匹配项。
7、作为本发明的进一步改进,所述步骤1具体包括以下步骤:
8、步骤1.1、指令设计:,其中,为给定的指令,表示根据原始实体及描述设计指令的过程,表示实体,表示实体的名称,表示实体的描述;
9、步骤1.2、生成摘要:,其中,表示使用大语言模型根据实体名称及描述和指令生成摘要的过程;
10、步骤1.3、摘要评估:,其中,表示评估结果,表示评估生成的摘要的质量的过程;
11、步骤1.4、摘要优化:如果评估结果表明摘要需要优化,则:,其中为更新后的摘要指令,为优化后的摘要,表示根据评估结果更新摘要指令的过程;
12、步骤1.5、最终摘要:经过优化后的摘要即为实体增强的最终输出。
13、作为本发明的进一步改进,所述步骤2具体包括以下步骤:
14、步骤2.1、设计提示模板:,其中为提示模板, 为文本提及信息,为视觉信息,表示根据文本信息和视觉信息设计提示模板的函数,提示模板用于指导多模态大语言模型生成增强提及描述;
15、步骤2.2、生成增强的语义描述:,其中为初始增强的语义描述,表示文本信息和视觉信息的融合结果,表示使用多模态大语言模型和提示模板对融合后信息进行处理并生成增强语义描述的函数;
16、步骤2.3、评估增强的语义信息描述:,其中为评估结果,表示评估生成的增强语义描述质量的函数,评估内容包括语义的完整性、准确性和与原始信息的一致性;
17、步骤2.4、优化提示模板:如果评估结果表明需要优化,则:,其中为更新后的提示模板,表示根据评估结果更新提示模板的函数;
18、步骤2.5、重新生成增强的语义描述:使用更新后的提示模板重新生成增强提及信息描述:, 其中,表示文本信息和视觉信息的融合结果,为重新生成的增强提及描述;
19、步骤2.6、最终增强语义描述:经过优化后的增强提及描述即为提及增强过程的最终输出,包含了文本语义信息和视觉特征信息的融合,用于后续的实体链接任务。
20、作为本发明的进一步改进,所述步骤3具体包括以下步骤:
21、步骤3.1、候选实体集合的初始化:利用字符串匹配算法对每个文本提及信息进行处理,通过比较文本提及与知识库中实体的字符相似度,生成初始候选实体集合,集合包含与文本提及具有字符重叠的实体;
22、步骤3.2、使用预训练嵌入模型:采用在大规模文本语料上预训练的语言模型,将文本提及信息和候选实体集合中的每个实体映射到向量空间,得到文本提及的嵌入向量表示和候选实体的嵌入向量表示,向量用于捕获文本的语义特征;
23、步骤3.3、检索和重排:计算增强后的提及描述的嵌入向量与候选实体集合中每个实体的嵌入向量之间的余弦相似度,得到相似度分数,根据相似度分数对候选实体进行降序排序,获得排序后的候选实体集合;
24、步骤3.4、扩展候选实体集合:基于增强后的提及描述,在知识库中进行相似度检索,选取相似度分数超过预设阈值的实体,将这些在初始候选集合之外的高相似度实体添加到候选集合中,得到扩展后的候选实体集合;
25、步骤3.5、优化候选实体集合:对扩展后的候选实体集合应用实体消歧算法,通过分析实体间的语义关系和共现模式,剔除不相关的候选实体,得到最终优化后的候选实体集合,集合既包含了初始匹配的相关实体,也包含了经过语义扩展得到的候选实体,从而提高了实体链接的召回率和准确率。
26、作为本发明的进一步改进,在步骤3中,检索增强的过程具体如下:
27、;
28、是步骤3.1中通过字符串匹配得到的初始候选实体集合,是步骤2.5中得到的增强后的提及描述,是检索扩展后的候选实体集合,与步骤3.4中的扩展候选实体集合对应,是检索函数,基于提及描述信息和候选实体的嵌入向量之间的相似度来检索和重排候选实体;
29、扩展后候选实体集合通过实体消歧得到最终优化的候选实体集合:是实体消歧函数,用于优化候选实体集合,对应步骤3.5中的优化过程;是最终优化后的候选实体集合,即步骤3.5的输出结果,将用于步骤4中的决策性选择。
30、作为本发明的进一步改进,所述步骤4具体包括以下步骤:
31、步骤4.1、候选实体集合:检索增强后的候选实体集合,包括与文本提及相关的多个候选实体;
32、步骤4.2、使用大语言模型进行选择:利用预训练和微调过的大语言模型作为选择器,对每个候选实体进行评估,以确定哪个实体与文本提及最为匹配;
33、步骤4.3、评估和比较:大语言模型通过以下方式对每个候选实体进行评估:
34、(1)计算语义相似度:使用余弦相似度计算提及描述与候选实体的嵌入向量之间的相似度分数;
35、(2)计算上下文相关性:基于提及描述和候选实体的上下文信息,计算上下文相关性分数;
36、(3)计算属性匹配度:比较提及描述和候选实体的属性特征,得到属性匹配分数;
37、(4)综合评分:将上述分数通过加权方式组合,得到最终评分,其中为权重系数;
38、步骤4.4、选择最佳匹配:基于步骤4.3的评估结果,选择最终评分最高的候选实体作为链接结果;
39、步骤4.5、使用提示模板:设计提示模板,包含实体链接任务的目标、评估标准和约束条件,用于引导大语言模型进行选择;
40、步骤4.6、考虑多模态信息:在决策过程中融合文本和视觉特征,具体包括:
41、(1)文本特征:实体的文本描述、属性信息和上下文信息;
42、(2)视觉特征:实体相关的空间结构、外观特征和视觉上下文信息;
43、(3)特征融合:将文本和视觉特征进行多模态融合,生成综合特征表示;
44、步骤4.7、迭代优化:如果链接结果的置信度低于预设阈值,则进行如下优化:(1)调整提示模板的内容和结构;(2)更新大语言模型的参数,包括通过自动构建实体连接正确的指令数据集调整注意力权重、更新模型参数;(3)优化相似度计算方法,包括调整特征权重、改进度量函数;直到链接结果的置信度超过阈值或达到最大迭代次数;
45、步骤4.8、输出最终结果:决策性选择过程输出一个与文本提及最佳匹配的实体链接结果,结果满足预设的置信度要求,完成整个实体链接任务。
46、作为本发明的进一步改进,在步骤4中,决策性选择的过程具体如下:
47、;
48、其中是选定的最佳实体,即步骤4.8中的链接结果;是步骤3.5中最终优化后的候选实体集合,是步骤2.5中得到的增强提及描述,是步骤4.5中设计的提示模板;是步骤4.6中的多模态特征融合结果,代表实体,代表示从候选实体集合中选择使大语言模型输出分数最大的实体;是用于选择最佳实体的大语言模型,其决策过程包括:根据提示模板构建输入表示;计算步骤4.3中定义的综合评分, 在置信度阈值的约束下选择得分最高的实体;如果未达到置信度要求,执行步骤4.7的迭代优化过程。
49、本发明的有益效果是:
50、本发明通过利用大语言模型和多模态大语言模型的能力,来进行实体增强,语义信息增强,检索增强以及决策性选择来提高多模态实体链接的准确性和效率;具体体现在:
51、(1)实体增强利用大语言模型以解决实体描述过长和冗余信息的问题, 这有助于提炼实体的关键特征,从而在链接过程中提供更精确的实体信息。
52、(2)语义信息增强利用多模态大语言模型根据图像和文本上下文生成高质量的信息提及描述,这有助于补充提及信息中可能缺失的语义信息,提高提及信息的可识别性。
53、(3)检索增强通过计算提及和实体的嵌入表示之间的相似度,检索出与提及最相关的k个实体,从而缩小候选实体的范围,提高后续选择的准确性。
54、(4)决策性选择利用大语言模型作为选择器来检索到的候选实体中选择与提及最匹配的实体,这一步骤利用了大语言模型在文本理解和推理方面的强大能力,来提供清晰的任务指导,以此提高问题定义的准确性。
1.一种基于数据增强的多模态实体连接方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于数据增强的多模态实体连接方法,其特征在于,所述步骤1具体包括以下步骤:
3.根据权利要求2所述的基于数据增强的多模态实体连接方法,其特征在于,所述步骤2具体包括以下步骤:
4.根据权利要求3所述的基于数据增强的多模态实体连接方法,其特征在于,所述步骤3具体包括以下步骤:
5.根据权利要求4所述的基于数据增强的多模态实体连接方法,其特征在于,在步骤3中,检索增强的过程具体如下:
6.根据权利要求5所述的基于数据增强的多模态实体连接方法,其特征在于,所述步骤4具体包括以下步骤:
7.根据权利要求6所述的基于数据增强的多模态实体连接方法,其特征在于,在步骤4中,决策性选择的过程具体如下: