本发明涉及一种知识图谱表示学习推理方法及系统,属于知识推理。
背景技术:
1、知识图谱是由大量三元组构成的复杂网络,每个三元组由头实体、关系和尾实体组成,共同表示一个具体的事实。在人工智能领域,这些结构化的事实广泛应用于智能问答、推荐系统、医药发现等多个方面。知识推理模型在面对不完整的查询时,例如已知一个实体和一个关系但未知另一个实体,其任务是利用知识图谱的信息推断出缺失的实体。为了实现这一目标,知识表示学习变得至关重要,它涉及将实体和关系转换为数值形式的向量。
2、知识表示学习是知识图谱领域的一个热点研究方向,包括以下几种主要方法:基于三元组的方法,如transe、transr和rotate,通过映射实体和关系到向量空间来表达它们之间的语义信息,但这种方法在进行知识推理时可能缺乏可解释性;基于张量分解的方法,例如rescal和distmult,将知识图谱视为一个三维邻接矩阵,其中矩阵的每个元素表示一个三元组是否存在;基于神经网络的方法,如conve和convkb,将知识推理任务转化为深度学习问题,通过学习权重和偏差来识别三元组之间的模式,然而,这些方法可能面临时间复杂度高和可解释性不足的挑战;基于图神经网络(gnn)的方法,例如r-gcn和kbat,专门处理图结构数据,通过信息传播来捕捉实体的高阶邻居信息。尽管这些模型在捕捉复杂关系方面表现出色,但随着考虑的阶数增加,所需的计算量也可能指数级增长。因此亟需一种新的方法来解决上述现有方法存在的弊端。
技术实现思路
1、本发明的目的是提供一种知识图谱表示学习推理方法及系统,能够提高推理的准确性和效率,以及提升知识表示模型的整体性能。
2、为解决上述技术问题,本发明是采用下述技术方案实现的。
3、第一方面,本发明提供一种知识图谱表示学习推理方法,包括:
4、从所述知识图谱中选取与用户查询相关的中心实体,以及所有通过查询关系与所述中心实体相连的邻居实体;其中,所述知识图谱包括若干实体;
5、计算每个邻居实体与所述中心实体相关联的概率值,并将所述概率值按照降序方式进行排序,从概率值最大的邻居实体开始逐步累加,直至累加的概率值总和超过预设的概率阈值p,停止对当前层的实体进行采样;
6、利用图神经网络将所述邻居实体包含的信息聚合到相连的中心实体中,以更新每个实体;
7、重复采样以及更新每层的实体,直至达到预设采样层数l;
8、将更新后的实体、查询关系输入至训练好的知识表示模型中,输出预测的答案实体;其中,所述知识表示模型对所述知识图谱中可能的实体进行评分,选择分数最高的实体为最终预测的答案实体。
9、结合第一方面,进一步地,所述计算每个邻居实体与所述中心实体相关联的概率值,包括:
10、计算所述邻居实体与查询关系以及中心实体的相关性值;
11、将所述相关性值进行归一化处理,以将所述相关性值转换成与所述中心实体相关联的概率值。
12、结合第一方面,进一步地,所述邻居实体与查询关系以及中心实体的相关性值的表达式为:
13、;
14、其中,表示相关性值;表示第层中心实体的嵌入;表示第层邻居实体的嵌入;表示查询关系;
15、所述概率值的计算表达式为:
16、;
17、其中,j表示所有邻居实体的索引;n表示邻居实体的总数量;表示概率值。
18、结合第一方面,进一步地,所述利用图神经网络将所述邻居实体包含的信息聚合到相连的中心实体中,包括:
19、对所述邻居实体包含的信息进行基于注意力机制的加权聚合,获得邻居实体的权重,所述权重的表达式为:
20、;
21、;
22、其中,表示邻居实体的权重值;表示激活函数;表示可学习的参数矩阵;表示向量连接操作;表示中心实体在层的表示;表示邻居实体在层的表示;表示当前中心实体与邻居实体在层的关系表示;表示可学习的偏置;表示邻居实体的权重;表示邻居实体的可学习的参数矩阵;表示参数化的偏置;
23、根据所述邻居实体的权重再次进行加权聚合,以整合每个中心实体相连的全部邻居实体包含的信息,并将整合后的邻居实体的信息聚合到自身的中心实体中,以更新当前的实体。
24、结合第一方面,进一步地,所述更新当前的实体的表达式为:
25、;
26、;
27、其中,表示加权聚合后的邻居实体的信息表示;r表示关系的数量;表示可训练的参数矩阵;表示更新后的实体的表示;表示聚合函数;表示当前的中心实体的表示。
28、结合第一方面,进一步地,所述知识表示模型的训练过程,包括:
29、利用负采样策略评估以及计算每个中心实体与邻居实体之间的邻居连接密度,所述邻居连接密度的表达式为:
30、;
31、其中,表示单个中心实体与邻居实体之间的邻居连接密度;表示单个中心实体与邻居实体之间的连接数量;表示单个中心实体与之相连的邻居实体数量;
32、根据所述邻居连接密度,将实体按照类型进行分类,分为稠密实体与稀疏实体,并根据不同的类型确定不同的负采样策略,并生成负样本;其中,所述稠密实体采样基于相似度的采样策略,选择在特征空间中与所述知识图谱中已有实体相似的实体作为负样本;所述稀疏实体采用随机采样策略,选择在特征空间中随机确定的实体作为负样本;
33、根据生成的负样本与知识图谱中已有的实体来训练知识表示模型,并采用损失函数优化模型的参数,以及评估模型的性能,并根据评估结果调整所述模型的参数。
34、结合第一方面,进一步地,所述根据邻居连接密度,将实体按照类型进行分类,包括:
35、将当前的中心实体与邻居实体之间的邻居连接密度与预设知识图谱的平均邻居连接密度进行比较,判断当前的实体是否稠密;
36、若当前的中心实体与邻居实体之间的邻居连接密度高于预设知识图谱的平均邻居连接密度,则当前的实体为稠密实体;若当前的中心实体与邻居实体之间的邻居连接密度低于预设知识图谱的平均邻居连接密度,则当前的实体为稀疏实体。
37、结合第一方面,进一步地,所述预设的知识图谱的平均邻居连接密度的表达式为:
38、;
39、其中,表示知识图谱的平均邻居连接密度;n表示知识图谱中实体的总数;表示第i个实体的邻居连接密度。
40、结合第一方面,进一步地,所述损失函数的表达式为:
41、;
42、其中,l表示损失函数的结果;i表示损失函数中样本的索引;表示负样本的分数;表示知识图谱中已有实体的分数;表示超参数。
43、第二方面,一种知识图谱表示学习推理系统,包括:
44、获取模块,用于从所述知识图谱中选取与用户查询相关的中心实体,以及所有通过查询关系与所述中心实体相连的邻居实体;其中,所述知识图谱包括若干实体;
45、层采样模块,用于计算每个邻居实体与所述中心实体相关联的概率值,并将所述概率值按照降序方式进行排序,从概率值最大的邻居实体开始逐步累加,直至累加的概率值总和超过预设的概率阈值p,停止对当前层的实体采样;
46、更新模块,用于利用图神经网络将所述邻居实体包含的信息聚合到相连的中心实体中,以更新每个实体;
47、迭代控制模块,用于重复采样以及更新每层的实体,直至达到预设采样层数l;
48、预测模块,用于将更新后的实体、查询关系输入至训练好的知识表示模型中,输出预测的答案实体;其中,所述知识表示模型对所述知识图谱中可能的实体进行评分,选择分数最高的实体为最终预测的答案实体。
49、与现有技术相比,本发明所达到的有益效果:
50、本发明采用层次化的采样策略,首先在知识图谱中识别与用户查询紧密相关的中心实体,以及通过查询关系与之直接相连的邻居实体。通过计算这些邻居实体与中心实体之间的相关性,并根据概率值进行降序排序和累加,我们能够筛选出对推理任务至关重要的实体,直至累加概率值超过预设的阈值p。接着,利用图神经网络技术,对这些精选的邻居实体信息进行聚合,以此更新中心实体的表示。这个过程重复执行,直到达到预设的采样层数l,确保模型能够充分利用知识图谱中的结构化信息。
51、通过层次核采样,我们显著减少了模型在推理过程中的计算量。同时,稀疏性负采样的引入,根据实体的稠密度采用不同的采样策略,进一步提高了模型训练的质量。此外,图神经网络的深度信息聚合能力,加强了模型对知识图谱中复杂关系的深入理解。这些技术的融合,使得知识表示模型在接收到经过多轮更新的实体和查询关系后,能够对所有潜在的答案实体进行精确评分,并准确预测出分数最高的实体作为最终答案。这一流程不仅提升了知识推理的准确性,也提高了推理过程的效率。
1.一种知识图谱表示学习推理方法,其特征在于,包括:
2.根据权利要求1所述的知识图谱表示学习推理方法,其特征在于,所述计算每个邻居实体与所述中心实体相关联的概率值,包括:
3.根据权利要求2所述的知识图谱表示学习推理方法,其特征在于,所述邻居实体与查询关系以及中心实体的相关性值的表达式为:
4.根据权利要求1所述的知识图谱表示学习推理方法,其特征在于,所述利用图神经网络将所述邻居实体包含的信息聚合到相连的中心实体中,包括:
5.根据权利要求4所述的知识图谱表示学习推理方法,其特征在于,所述更新当前的实体的表达式为:
6.根据权利要求1所述的知识图谱表示学习推理方法,其特征在于,所述知识表示模型的训练过程,包括:
7.根据权利要求6所述的知识图谱表示学习推理方法,其特征在于,所述根据邻居连接密度,将实体按照类型进行分类,包括:
8.根据权利要求7所述的知识图谱表示学习推理方法,其特征在于,所述预设的知识图谱的平均邻居连接密度的表达式为:
9.根据权利要求6所述的知识图谱表示学习推理方法,其特征在于,所述损失函数的表达式为:
10.一种知识图谱表示学习推理系统,其特征在于,包括: