本发明涉及知识图谱,具体涉及一种融合多源信息的规则挖掘方法。
背景技术:
1、自谷歌提出知识图谱概念以来,知识图谱已经为智能问答、个性化推荐等多个nlp领域任务提供了有力支撑。虽然目前的知识图谱中存在大量的实体和事实数据,如dbpedia、freebase、wikidata、yago等包含了数以亿计的三元组,但是还面临着非常严重的数据缺失问题。需要利用知识推理去补全知识图谱中缺失的实体或关系。
2、然而现有的知识推理方法存在以下不足。第一,典型的知识推理模型利用表示学习的方法去做推理,通过将实体和关系映射到低维连续的向量空间,将推理预测转化为简单的向量/矩阵操作,但是它们是缺乏可解释性的黑盒模型,在一些对模型的安全性和可解释性要求较高的任务中并不适用。第二,基于逻辑规则的知识推理模型通过规则将推理过程显式、可解释地表示。但是,传统的规则推理模型只简单学习符合条件的闭式路径规则(closed path rules),然后使用不同的度量来过滤规则。由于知识图谱的不完整性,仅仅通过置信度等指标来筛选出高质量规则的思路并不完善,甚至有可能进行错误的预测。第三,结合表示学习和逻辑规则的混合推理模型使用实体和关系的表示来对规则进行过滤,或者通过在实体和关系的表示学习中加入文本描述信息,使用精准的文本信息对规则进行过滤。然而,只有少数知识图谱中的实体和关系具有文本信息,并且文本语料库并不总是可用的。另外,上述方法仅仅考虑了三元组的事实信息或者文本信息,忽略了其他信息。
3、与本发明先关的技术及研究包括:galárraga等人(l.a. galárraga,et al.amie:association rule mining under incomplete evidence in ontological knowledgebases.international conference on world wide web,2013: 413–422)利用pca置信度对规则进行评估和筛选,从不完备的知识库中对闭式规则进行挖掘。meilicke等人(c.meilicke et al. stuckenschmidt,fine-grained evaluation of rule and embedding-based systems for knowledge graph completion. international semantic webconference, 2018:3–20)通过对规则体的路径进行随机采样对置信度进行估算,简化了置信度的计算过程,从而可以挖掘到更长的规则。meilicke等人(c. meilicke et al.anytime bottom-up rule learning for knowledge graph completion.internationaljoint conference on artificial intelligence, 2019:3137–3143)采用自底向上的思想逐步扩展规则的规模和复杂度。这类规则挖掘算法虽然避免了人工获取规则的昂贵代价,但是由于知识图谱本身的不完整性,置信度等指标可能会对规则的质量进行误判从而产生噪音规则,对推理结果造成影响。
4、近年来基于表示学习的知识图谱推理模型得到广泛关注和发展,还有通过融合多源信息来增强知识图谱嵌入的模型,如xie等人(xie r et al. representation learningof knowledge graphs with hierarchical types. international joint conferenceon artificial intelligence, 2016: 2965-2971)考虑到知识图谱中实体的层次类型信息,socher等人(socher r et al. reasoning with neural tensor networks forknowledge base completion.conference and workshop on neural informationprocessing systems, 2013: 926-934)利用辅助新闻语料库对实体进行初始化表示,wang等人(b. wang et al. structure-augmented text representation learning forefficient knowledge graph completion.international conference on world wideweb, 2021:1737–1748)综合利用了知识图谱的结构信息和文本描述信息。这类模型通常具有很高的可扩展性,但是由于深度学习模型黑盒的特点,导致其可解释性差。相反,基于逻辑规则推理的模型可解释性强且准确性高,却面临可扩展性较差的挑战。
5、基于表示学习和逻辑规则的混合学习希望可以结合各自的优点来改善现有的模型。例如,omran等人(p.g. omran et al. scalable rule learning via learningrepresentation.international joint conference on artificial intelligence,2018:2149–2155)利用嵌入模型对规则中的实体和谓词进行嵌入表示,然后根据这些嵌入表示设计评分函数对规则进行修剪,以此在知识图谱中挖掘高质量规则。ho等人(v.t.hoet al.rule learning from knowledge graphs guided by embeddingmodels.international semantic web conference, 2018:72–90)在外部文本资源的指导下对学习到的规则进行排名和修剪,以在不完整的知识图谱中更准确的判断候选规则的质量。zhang等人(zhang w et al.iteratively learning embeddings and rules forknowledge graph reasoning. international conference on world wide web,2019:2366-2377)基于owl2提出了7种类型的规则,通过迭代的方式进行表示学习和规则挖掘,使各个模块在迭代的过程中相互增强来对规则进行充分地建模。此外,利用lstm/rnn等神经网络来模拟规则推理的可微规则学习在近几年也受到广泛的关注,例如yang等人(f.yanget al.differentiable learning of logical rules for knowledge basereasoning.conference and workshop on neural informationprocessingsystems,2017:2319–2328)提出了一个完全可微系统,其中可微的矩阵运算允许模型同时学习一阶逻辑规则的参数和结构。
技术实现思路
1、为克服表示学习可解释性差和传统的逻辑规则学习可扩展性差的不足,本发明提供一种融合多源信息且可扩展的规则挖掘方法。本发明融合了知识图谱的数字属性信息和概念信息以辅助学习高质量规则,进而提高知识图谱推理的性能。
2、为了实现上述目的,本发明所采用的技术方案如下:
3、一种融合多源信息且可扩展的规则挖掘方法,包括以下步骤:
4、步骤1、根据目标谓词对实体和关系进行分层采样,简化知识图谱;
5、步骤2、利用概念感知负采样策略,为简化后的知识图谱采样高质量负样本;
6、步骤3、利用嵌入模型对简化后的知识图谱进行嵌入,并把嵌入模型的负采样模块替换成步骤2中的概念感知负采样,获得融合了多源信息的实体嵌入结果;
7、步骤4、优化规则挖掘算法,在知识图谱中初步获得候选规则;
8、步骤5、利用步骤3融合多源信息的实体嵌入结果过滤候选规则,获得高质量候选规则;
9、步骤6、对高质量规则进行评估筛选,以此进行知识图谱补全。
10、而且,所述步骤1的具体实现方法为:对于知识图谱、实体集和三元组集,给定目标谓词,规则的最大长度,逐层生成样本实体集和样本三元组集,,,其中为中的实体,为实体之间的关系:
11、,其中,实体集由实体集中与目标谓词直接相连的实体组成;
12、,其中,实体集由与实体集中的实体通过任意谓词相连的实体组成;
13、,其中,实体集由与实体集中的实体通过任意谓词相连的实体组成;
14、涵盖了所要挖掘的规则涉及到的实体信息,涵盖了与中的实体有关的三元组信息,只需对分层采样后的小规模知识图谱进行嵌入计算,便获得规则挖掘任务所需要的嵌入信息,同时提高效率。
15、而且,所述步骤2的具体实现方法为:设计一个概念感知负采样策略,根据知识图谱中关系的多样性特征,1-1,1-n,n-1,n-n进行负采样,和基础嵌入模型通过简单的替换正确实体得到负样本的策略不同,概念感知负采样为实体分配权重:
16、
17、
18、
19、
20、其中,代表知识图谱中的三元组,和代表和的候选负样本实体,和是分别是和通过1端采样和n端采样得到的负样本实体,则表示利用基础嵌入模型对负样本进行嵌入评分,表示对候选负样本进行嵌入评分,和同理,和分别为负样本的概率和权重,为自对抗采样中的超参数温度;由于1端实体的唯一性,所以选择权重高的候选负样本实体,由于n端实体的非唯一性,所以选择权重低的候选实体进行替换,将概念信息融入实体嵌入结果中。
21、而且,所述步骤3的具体实现方法为:设置一个可学习函数,将实体的嵌入和属性作为输入,并将它们映射到与实体嵌入相同维度的向量,,表示融合了实体信息和其数值属性信息的向量,以此将数值属性信息融入实体嵌入结果中;将设置为带有门控机制的多层神经网络,门控机制使其有选择的保留有用的信息,丢弃无用的信息。
22、而且,所述步骤4的具体实现方法为:利用关系邻接矩阵连乘的方法进行规则路径搜索,在此基础上进行搜索优化:若在规则搜索过程中发现一条规则中有重复原子,则不会探索这条路径,否则探索这条路径,以此避免大量冗余规则的产生。
23、而且,所述步骤5的具体实现方法为:设置评分函数和,计算规则中关系谓词的语义相似度,计算规则中关系谓词的平均实体嵌入相似度,和相互补充,利用融合多源信息的知识图谱实体嵌入结果筛选出符合语义的高质量候选规则。
24、而且,所述步骤6的具体实现方法为:定义头部覆盖率hc和标准置信度sc两个度量指标对步骤5获得的高质量候选规则进行评估,规定,的规则为有质量的规则,,的规则为高质量规则。
25、本发明的优点和积极效果是:
26、本发明通过在知识图谱中挖掘出一系列一阶逻辑闭式规则,然后使用度量指标对规则进行筛选,并且构建一个可扩展的知识图谱嵌入模型,通过此模型利用实体的数值属性信息和概念信息增强实体表示,使实体的嵌入结果融合了实体结构信息以及丰富的多源信息。最终在使用度量指标对规则进行筛选的过程中,利用这些多源信息为规则提供丰富的语义约束,对高质量规则的学习产生正面影响。本发明通过将多源信息与逻辑规则相结合学习高质量规则,进而提高知识图谱推理的性能。本发明具有的可扩展性使其可以使用不同的知识图谱嵌入模型,并且融合更多有益的外部信息。
1.一种融合多源信息且可扩展的规则挖掘方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种融合多源信息且可扩展的规则挖掘方法,其特征在于:所述步骤1的具体实现方法为:对于知识图谱、实体集和三元组集,给定目标谓词,规则的最大长度,逐层生成样本实体集和样本三元组集,,,其中为中的实体,为实体之间的关系:
3.根据权利要求1所述的一种融合多源信息且可扩展的规则挖掘方法,其特征在于:所述步骤2的具体实现方法为:设计一个概念感知负采样策略,根据知识图谱中关系的多样性特征,1-1,1-n,n-1,n-n进行负采样,和基础嵌入模型通过简单的替换正确实体得到负样本的策略不同,概念感知负采样为实体分配权重:
4.根据权利要求1所述的一种融合多源信息且可扩展的规则挖掘方法,其特征在于:所述步骤3的具体实现方法为:设置一个可学习函数,将实体的嵌入和属性作为输入,并将它们映射到与实体嵌入相同维度的向量,,表示融合了实体信息和其数值属性信息的向量;以此将数值属性信息融入实体嵌入结果中;将设置为带有门控机制的多层神经网络,门控机制使其有选择的保留有用的信息,丢弃无用的信息。
5.根据权利要求1所述的一种融合多源信息且可扩展的规则挖掘方法,其特征在于:所述步骤4的具体实现方法为:利用关系邻接矩阵连乘的方法进行规则路径搜索,在此基础上进行搜索优化:若在规则搜索过程中发现一条规则中有重复原子,则不会探索这条路径,否则探索这条路径,以此避免大量冗余规则的产生。
6.根据权利要求1所述的一种融合多源信息且可扩展的规则挖掘方法,其特征在于:所述步骤5的具体实现方法为:设置评分函数和,计算规则中关系谓词的语义相似度,计算规则中关系谓词的平均实体嵌入相似度,和相互补充,利用融合多源信息的知识图谱实体嵌入结果筛选出符合语义的高质量候选规则。
7.根据权利要求1所述的一种融合多源信息且可扩展的规则挖掘方法,其特征在于:所述步骤6的具体实现方法为:定义头部覆盖率hc和标准置信度sc两个度量指标对步骤5获得的高质量候选规则进行评估,规定,的规则为有质量的规则,,的规则为高质量规则。
