本发明涉及电网运维,尤其是一种电力调度自动化作业知识图谱构建方法和系统。
背景技术:
1、我国从20世纪70年代开始涉足电力系统调度自动化领域,堆积了诸多结构化与非结构化的数据,现如今通过传统人工经验难以准确迅速地分析出大规模电力调度自动化系统故障。使用知识图谱技术可以有效地解决电力调度自动化作业知识难以利用地问题,而构建全面的本体结构能更加全面地表达电力调度自动化系统的故障、运检作业内容和安全措施,能够更好地对历数据加以利用,实体关系联合抽取方法从非格式化文本中提炼三元组信息,可以将设备、系统、人员、故障和工作内容更好地关联起来。
技术实现思路
1、本发明提出一种电力调度自动化作业知识图谱构建方法和系统,通过对调度自动化作业历史文本预处理,使用本体定义和实体关系抽取的方法建立电力调度自动化作业知识图谱,充分发掘电力调度自动化作业领域数据,能够有效地提高电力调度自动化领域作业知识的利用率。
2、本发明采用以下技术方案。
3、一种电力调度自动化作业知识图谱构建方法,通过对调度自动化作业历史文本预处理,使用本体定义和实体关系抽取的方法建立电力调度自动化作业知识图谱,包括以下步骤;
4、步骤s1、构建电力调度自动化作业本体结构;
5、步骤s2、对docx文本的数据进行处理,由格式化数据得到(实体,关系类别标签,实体)形式的第一三元组和待抽取的领域文本;
6、步骤s3、获取所述待抽取的领域文本中每个语句的字向量和位置向量,将所述字向量和所述位置向量相加得到文本新的向量表示,并输入融合实体类别信息的实体关系抽取模块,得到(实体,关系类别标签,实体)形式的第二三元组;
7、步骤s4、根据所述本体结构、所述第一实体三元组和所述第二实体三元组构建电力调度自动化作业知识图谱。
8、步骤s1中,设计电力调度自动化作业本体结构具体定义如下:
9、设电力调度自动化作业本体为power-dispatch-automation-operatingontology;power-dispatch-automation-operating ontology={entity,attribute,relation},其中:
10、步骤s1a1、定义entity为实体相关概念集,用于表示电力调度自动化作业领域客观实体的集合,entity=(software,equipment,staff,fault,work),software为软件类实体,指电力调度自动化涉及的客观存在的业务系统和软件,包括业务系统、进程、数据库、数据表、文件、操作系统六个子类;equipment为设备类实体,表示客观存在的物理设备和场地;staff为人员类实体,包含电力调度自动化作业中涉及的人员、公司、部门和角色;fault为故障类实体,包含故障原因和异常现象子类;work为工作类实体,包含工作内容、工作项、指令操作和安全措施。
11、步骤s1a2、定义attribute为属性相关概念集,表示entity具有的特定属性特征,包括版本、资质、风险;其中,software软件类实体和equipment设备类实体具有版本属性,标识软件和设备的版本号;staff人员类实体具有资质属性,包含许可操作类别、资质证书、培训信息,标识角色、公司和人员是否有作业工作的资质;风险包含设备风险和指令风险;
12、步骤s1a3、定义relation中包含了实体、属性相关概念之间的除了层级关系外的所有的关联关系,记为<概念c1,关系r,概念c2>,其中,概念c1与概念c2包含于实体相关概念集entity和属性相关概念集attribute中。
13、步骤s2中,对docx文本数据进行处理,由格式化数据得到(实体,关系类别标签,实体)形式的第一三元组和待抽取实体关系的文本,具体步骤包括:步骤s2a1、定义需要抽取的字段列表name={name1,name2,...,namen}和字段对应大纲等级列表level={level1,level2,...,leveln},定义临时字典temp为空;
14、步骤s2a2、使用python-docx工具对docx文件进行解析,得到文档的xml数据格式的段落列表;
15、步骤s2a3、读取一条xml格式段落数据,如果大纲等级存在level中,则执行步骤s2a4;如果不存在则继续读取下一条,一直到读取的段落大纲等级存在level中或者读取到文档尾;
16、步骤s2a4、如果临时字典temp为空,则将本段内容以<namei,contenti>的键值对形式保存至临时字典,其中name表示字段名称,content表示段落内容,执行步骤s2a3;
17、步骤s2a5、如果临时字典中保存有字段namei,且对应键值对的值为contenti,且大纲等级为最后一级,则将当前段落内容拼接至contenti,重新保存至temp,执行步骤s2a3;
18、步骤s2a6、如果临时字典中保存有字段namei,且大纲等级不是最后一级,则将临时字典temp中的内容以json格式保存至格式化文本数据库并将字段大纲等级为最后一级对应的值保存至待抽取的领域文本数据库,并将本级字段以及下级全部字段从临时字典中去除,执行步骤s2a3;
19、步骤s2a7、根据所述本体结构和所述格式化文本数据库内容得到第一三元组,待抽取的领域文本数据库中存放待抽取的领域文本。
20、步骤s2中,所述方法还包括根据所述本体结构和所述格式化文本数据库内容得到第一三元组,具体包括以下步骤:
21、从所述格式化文本数据库中提取字典temp;获取temp中一个的key1和对应的value1,在本体结构中检索key1相关联关系r和实体key2集合,在temp中查找key2和对应的value2,将(value1,r,value2)保存为第一三元组。
22、步骤s3中,获取所述待抽取的领域文本中每个语句的字向量和位置向量,将所述字向量和所述位置向量相加得到文本新的向量表示,并输入融合实体类别信息的实体关系抽取模块,得到(实体,关系类别标签,实体)形式的第二三元组,具体包括以下步骤:
23、步骤s3a1、获取所述待抽取的领域文本中每个语句的字向量和位置向量,将所述字向量和所述位置向量相加得到文本新的向量表示,通过多头自注意力机制层进行第一实体识别,获取多个第一实体和第一实体类别;
24、步骤s3a2、获取所述第一实体类别信息的向量表示,将所述文本新的向量、所述第一实体和所述第一实体类别信息输入融合实体类别信息的特定关系第二实体识别模块,得到(实体,关系类别标签,实体)形式的第二三元组。
25、步骤s3a1中,获取所述待抽取的领域文本中每个语句的字向量和位置向量,将所述字向量和所述位置向量相加得到文本新的向量表示,通过多头自注意力机制层进行第一实体识别,获取多个第一实体和第一实体类别,具体包括以下步骤:步骤s3b1、获取所述每个语句的字向量和位置向量,对所述每个语句中的每一个字,获取所述每一个字的字向量和位置向量;
26、步骤s3b2、将字向量和位置向量相加,通过多头自注意力机制层,获取所述语句的第一实体预测概率;
27、步骤s3b3、将所述第一实体预测概率通过多层指针解码层进行处理,得到多个第一实体和第一实体类别;
28、步骤s3a2中,获取所述第一实体类别信息的向量表示,将所述文本新的向量、所述第一实体和所述第一实体类别信息输入融合实体类别信息的特定关系第二实体识别模块,得到(实体,关系类别标签,实体)形式的第二三元组,具体包括以下步骤:
29、步骤s4c1、通过头实体类别编码器对头实体类别进行编码得到第一实体类别向量;
30、步骤s4c2、从所述文本新的向量中获取第一实体的字向量,将字向量在第1维度相加得到所述第一实体词向量;
31、步骤s4c3、将所述文本新的向量、所述第一实体词向量和所述第一实体类别向量相加,通过双向长短期记忆网络,得到第二1实体预测概率;
32、步骤s4c4、将所述文本新的向量、所述第一实体词向量和所述第一实体类别向量拼接,通过多头自注意力机制层,得到第二2实体预测概率;
33、步骤s4c5、将所述第二1实体预测概率和所述第二2实体预测概率相加,通过多层指针解码层进行处理,得到所述第一实体相关的第二实体和关系,并形成第二三元组。
34、步骤s3中,所述方法还包括三元组构成模块对第一实体,关系类别标签和第二实体的限制,具体包括以下步骤:
35、其中,对于所述第二三元组,获取其第一实体e1、第二实体e2、关系r;如果所述r属于所述故障实体类和工作实体类之间的关系,且e1与e2在所述文本中位置存在重叠,则去除该三元组;
36、对于所述第二三元组集合,获取(hi,ri,ti),(hj,*,*)和(hi,ri,tj),其中*代表任意值;如果hj在所述文本的位置包含hi在所述文本的位置或相同hi和ri情况下hi在所述文本的位置包含hj在所述文本的位置,则保留(hi,ri,tj),去除(hj,*,*)和(hi,ri,tj)。
37、步骤s4中,根据所述本体结构、所述第一三元组和所述第二三元组构建电力调度自动化作业知识图谱,具体步骤包括:
38、步骤s4a1、获取所述第一三元组和所述第二三元组中第一实体和第二实体,形成实体列表ent=[ent1,ent2,…,entn];
39、步骤s4a2、对所述实体ent两两计算实体相似度similar(enti,entj),对similar(enti,entj)>λ的实体对存入不同的实体集合,一个集合代表一个具体实体,λ为参数;
40、步骤s4a3、对所述不同的实体集合,取第一个实体ent1,用于替换所述第一三元组和所述第二三元组中存在的集合中的其他实体;
41、步骤s4a4、将所述替换后的第一三元组和第二三元组存入图数据库中。
42、步骤s4a2中,实体相似度具体计算公式如下:
43、
44、式中,变量ai和bi分别为所述实体ent1和entj的字向量表示。
45、一种电力调度自动化作业知识图谱构建系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,执行以上所述的方法步骤;
46、所述系统还包括以下功能模块:数据预处理模块、三元组抽取模块、电力调度自动化作业知识图谱构建模块;
47、数据预处理模块,用于从历史数据中获取格式化文本数据和待抽取的领域文本数据,并将格式化文本数据形成三元组;
48、三元组抽取模块,用于对待抽取的领域文本数据进行第一实体和第一实体类别识别,并输入融合实体类别信息的特定关系第二实体识别模块,从而实现对待抽取的领域文本中(实体,关系,实体)三元组的抽取;
49、电力调度自动化作业知识图谱构建模块,用于将三元组根据本体结构存储在图数据库中,首先根据步骤s4所提方法实现三元组的实体对齐,再将对齐后的三元组形成知识图谱存入图数据库。
50、相较于现有技术,本发明具有以下有益效果:
51、本发明经过不断探索以及试验,将电网调度自动化软件系统、硬件设备、人员信息、历史故障、解决措施和安全措施进行结构化处理,使用本体的方法将所述内容关联起来;适用于电网调度自动化作业场景,为运检指挥人员提供辅助决策,有效提升人员设备异常和故障的处置能力,提升电网调度自动化软硬件知识分析处理方面的质量、效率,降低电网调度自动化软硬件运维成本,提升运检人员效率。
52、进一步,本发明通过电力调度自动化作业知识图谱基础建设,将海量软硬件信息、人员信息转化为电网调度自动化作业知识和现实生产力,实现业务系统和硬件设备信息精准搜索、电力调度自动化工作票生成等电力调度自动化作业知识典型应用场景。
53、本发明可为电力调度自动化设备检修、技术管理等多元角色提供快速便捷、精准有效的知识支撑。挖掘历史作业数据中的深层关联,强化作业分析能力,全面提高电力调度自动化作业信息化和智能化水平项目范围。
54、本发明涉及一种电力调度自动化作业知识图谱构建方法和系统法,包括构建电力调度自动化作业本体结构;对docx文本的数据进行处理,由格式化数据得到(实体,关系类别标签,实体)形式的第一三元组和待抽取的领域文本;获取所述待抽取的领域文本中每个语句的字向量和位置向量,将所述字向量和所述位置向量相加得到文本新的向量表示,并输入融合实体类别信息的实体关系抽取模块,得到(实体,关系类别标签,实体)形式的第二三元组;根据所述本体结构、所述第一实体三元组和所述第二实体三元组构建电力调度自动化作业知识图谱。本发明通过对调度自动化作业历史文本预处理,使用本体定义和实体关系抽取的方法建立电力调度自动化作业知识图谱,充分发掘电力调度自动化作业领域数据,能够有效地提高电力调度自动化领域作业知识的利用率。
55、本发明将电力调度自动化作业领域的软件、设备、人员、故障、工作内容五个部分关联起来,通过数据预处理和实体关系抽取模块得到格式化数据,更好地分析历史数据中的潜在关系,进而提升历史作业数据的知识挖掘能力。
1.一种电力调度自动化作业知识图谱构建方法,其特征在于:通过对调度自动化作业历史文本预处理,使用本体定义和实体关系抽取的方法建立电力调度自动化作业知识图谱,包括以下步骤;
2.根据权利要求1所述的一种电力调度自动化作业知识图谱构建方法,其特征在于:步骤s1中,设计电力调度自动化作业本体结构具体定义如下:
3.根据权利要求1所述的一种电力调度自动化作业知识图谱构建方法,其特征在于:步骤s2中,对docx文本数据进行处理,由格式化数据得到(实体,关系类别标签,实体)形式的第一三元组和待抽取实体关系的文本,具体步骤包括:步骤s2a1、定义需要抽取的字段列表name={name1,name2,...,namen}和字段对应大纲等级列表level={level1,level2,...,leveln},定义临时字典temp为空;
4.根据权利要求3所述的一种电力调度自动化作业知识图谱构建方法,其特征在于:步骤s2中,所述方法还包括根据所述本体结构和所述格式化文本数据库内容得到第一三元组,具体包括以下步骤:
5.根据权利要求1所述的一种电力调度自动化作业知识图谱构建方法,其特征在于:步骤s3中,获取所述待抽取的领域文本中每个语句的字向量和位置向量,将所述字向量和所述位置向量相加得到文本新的向量表示,并输入融合实体类别信息的实体关系抽取模块,得到(实体,关系类别标签,实体)形式的第二三元组,具体包括以下步骤:
6.根据权利要求1所述的一种电力调度自动化作业知识图谱构建方法,其特征在于:步骤s3a1中,获取所述待抽取的领域文本中每个语句的字向量和位置向量,将所述字向量和所述位置向量相加得到文本新的向量表示,通过多头自注意力机制层进行第一实体识别,获取多个第一实体和第一实体类别,具体包括以下步骤:
7.根据权利要求1所述的一种电力调度自动化作业知识图谱构建方法,其特征在于:步骤s3中,所述方法还包括三元组构成模块对第一实体,关系类别标签和第二实体的限制,具体包括以下步骤:
8.根据权利要求1所述的一种电力调度自动化作业知识图谱构建方法,其特征在于:步骤s4中,根据所述本体结构、所述第一三元组和所述第二三元组构建电力调度自动化作业知识图谱,具体步骤包括:
9.根据权利要求1所述的一种电力调度自动化作业知识图谱构建方法,其特征在于:步骤s4a2中,实体相似度具体计算公式如下:
10.一种电力调度自动化作业知识图谱构建系统,其特征在于:包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,执行如权利要求1-9任一项所述的方法步骤;
