一种电网标准文档的语义分析整合方法及系统与流程

专利2025-06-30  4


本发明涉及电网标准文档加工,特别是一种电网标准文档的语义分析整合方法及系统。


背景技术:

1、电网标准文档的语义分析与整合是电力系统数字化转型中的关键环节,对于提高电网运营效率和可靠性具有重要意义。随着智能电网技术的快速发展,电力系统文档的数量和复杂性呈指数级增长,传统的人工处理方法已难以满足当前需求。近年来,自然语言处理和知识图谱等人工智能技术在文本分析领域取得了显著进展,为电网标准文档的智能化处理提供了新的技术支撑。然而,由于电力领域的专业性和特殊性,通用的语义分析方法在应用于电网文档时往往存在适应性不足、领域知识匮乏等问题,难以准确识别和提取电力专业术语、设备实体及其复杂关系。

2、现有的电网文档分析方法主要集中于关键词提取和文本分类等基础任务,缺乏对文档内容深层语义的挖掘和跨文档知识的整合。这些方法通常采用规则匹配或浅层机器学习算法,难以处理电网文档中的隐含语义和复杂上下文关系。此外,现有技术往往将文档分析与知识应用割裂开来,未能充分利用用户反馈和实际应用场景来优化和完善知识体系。这导致了分析结果与实际需求之间存在差距,难以为电网运营和决策提供精准、全面的知识支持。同时,由于缺乏有效的知识融合机制,不同来源、不同格式的电网文档信息难以形成统一的知识体系,影响了知识的一致性和可复用性。


技术实现思路

1、鉴于现有的语义分析整合技术中存在的问题,提出了本发明。

2、因此,本发明所要解决的问题在于难以处理电网文档中的隐含语义和复杂上下文关系。

3、为解决上述技术问题,本发明提供如下技术方案:

4、第一方面,本发明实施例提供了一种电网标准文档的语义分析整合方法,其包括,

5、收集并预处理电网系统文档,采用第一模型识别所述电网系统文档中的电力实体;

6、采用第二模型挖掘所述电力实体间的关系,并进行知识融合,构建知识图谱;

7、对所述电网系统文档中的用户工单进行统计分析和分类,利用分类结果强化知识图谱中的现有关系,完成电网系统文档的分析整合。

8、作为本发明所述电网标准文档的语义分析整合方法的一种优选方案,其中:所述第一模型识别所述电网系统文档中的电力实体包括,

9、利用神经网络捕捉输入序列的上下文关系;

10、对捕捉到的信息线性变换并压缩成固定维度向量;

11、引入特定实体嵌入信息,并综合;

12、将所述维度向量与实体嵌入信息进行特征融合,得到实体概率分布;

13、所述实体概率分布如下式所示:

14、

15、其中,peim(x)为输出的概率分布,x为输入的文本序列,t为序列长度,ht为bi-lstm在时间步t的隐藏状态,n为实体类型数量,e(xi)为第i类实体的嵌入表示,λ为贡献超参。

16、作为本发明所述电网标准文档的语义分析整合方法的一种优选方案,其中:所述第二模型挖掘所述电力实体间的关系,具体如下式所示:

17、

18、其中,sam为句法分析模型输出;x为输入文本序列;t为序列长度;h为隐马尔科夫模型输出;c为条件随机场模型输出,b为观测概率;λ为特征权重;f为特征函数。

19、作为本发明所述电网标准文档的语义分析整合方法的一种优选方案,其中:所述知识融合包括实体消歧和共指消解;

20、所述实体消歧包括,

21、针对多义词的词语,分析目标词的上下文环境,包括周围的修饰词、相关属性或技术参数,如果目标词附近出现了特定的技术指标或位置信息,则判定指代一个具体的设备或实体,相反,如果目标词与操作类动词搭配,或出现在操作流程描述中,则指代一个动作或过程。

22、作为本发明所述电网标准文档的语义分析整合方法的一种优选方案,其中:所述共指消解包括,

23、当遇到代词时,查找最近提到的相容实体,根据上下文来推断具体实体名称,当处理描述性短语时,提取描述性短语中的关键特征和属性,并搜索先前识别的实体,如果某实体所有已知特征与描述性短语完全吻合,那么这个实体为描述对象,如果没有完全匹配,检查哪些实体具有最多的匹配特征,并且没有明显的矛盾属性,匹配特征最多的为描述对象;如果没有实体匹配,则认定距离描述性短语最近的相关实体为描述对象;如果没有找到合适的匹配,则评估描述性短语是否包含足够的新信息来确立全新的实体,若没有则将该描述性短语进行标记,反之则建立全新的实体。

24、作为本发明所述电网标准文档的语义分析整合方法的一种优选方案,其中:对所述用户工单进行统计分析和分类包括,

25、统计工单中的文本的关键词频率

26、确定工单中的数值数据的统计量;

27、利用第三模型得出具体的工单分类;

28、所述第三模型如下式所示:

29、

30、其中,fif(x)为工单类型,t为关键词或关键词搭配,d为文档,d为文档集合,ft,d为关键词t在文档d中的出现次数,∑t′∈dft′,d为ft,d在文档d中所有关键词的总次数,|d|为文档集合d中的文档总数,{d∈d:t∈d}为包含关键词t的文档数,α为调整参数,μ为均值;xi为第i个数据点;n为数据点的数量;σ2为方差;γ1为偏度;γ2为峰度;β为调整参数;t为关键词集合;csf(x)为综合统计特征;wi为每个特征的权重。

31、作为本发明所述电网标准文档的语义分析整合方法的一种优选方案,其中:所述关键词包括两个或两个以上的词组成的语言表示。

32、第二方面,本发明实施例提供了一种电网标准文档的语义分析整合系统,其包括:

33、数据采集模块,用于收集并预处理电网系统文档;

34、知识图谱构建模块,用于采用第一模型识别所述电网系统文档中的电力实体,采用第二模型挖掘所述电力实体间的关系,并进行知识融合,构建知识图谱;

35、分类整合模块,用于对所述电网系统文档中的用户工单进行统计分析和分类,利用分类结果强化知识图谱中的现有关系,完成电网系统文档的分析整合。

36、第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述处理器执行所述计算机程序时实现上述的电网标准文档的语义分析整合方法的任一步骤。

37、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序被处理器执行时实现上述的电网标准文档的语义分析整合方法的任一步骤。

38、本发明有益效果为通过使用双向长短期记忆网络(bi-lstm)和条件随机场(crf)的组合结构,该方法能够有效捕捉上下文信息和标签之间的依存关系,大幅提升了电力实体识别的准确性。同时,引入电力领域特定的实体嵌入信息,进一步增强了模型对电力专业术语的理解能力。结合条件随机场和隐马尔科夫模型的句法分析方法,处理电网文档中的特定语言模式和复杂依存关系,通过开发动态更新机制,系统能够实时分析新处理的工单,提取新增关键词、实体关系等信息,并通过多阶段验证过程将这些信息整合到知识图谱中,通过实体消歧和共指消解技术,系统能够有效解决同名实体指代不同概念的问题,并识别不同表述但指代相同实体的情况。利用工单分类结果来强化知识图谱中的现有关系,系统能够自动发现和建立新的关联,如"共同故障风险"关系。这种方法使知识图谱能够随着实际应用场景的变化而不断优化和完善。


技术特征:

1.一种电网标准文档的语义分析整合方法,其特征在于:包括,

2.如权利要求1所述的电网标准文档的语义分析整合方法,其特征在于:所述第一模型识别所述电网系统文档中的电力实体包括,

3.如权利要求2所述的电网标准文档的语义分析整合方法,其特征在于:所述第二模型挖掘所述电力实体间的关系,具体如下式所示:

4.如权利要求3所述的电网标准文档的语义分析整合方法,其特征在于:所述知识融合包括实体消歧和共指消解;

5.如权利要求4所述的电网标准文档的语义分析整合方法,其特征在于:所述共指消解包括,

6.如权利要求5所述的电网标准文档的语义分析整合方法,其特征在于:对所述用户工单进行统计分析和分类包括,

7.如权利要求6所述的电网标准文档的语义分析整合方法,其特征在于:所述关键词包括两个或两个以上的词组成的语言表示。

8.一种电网标准文档的语义分析整合系统,基于权利要求1~7任一所述的电网标准文档的语义分析整合方法,其特征在于:包括,

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述的电网标准文档的语义分析整合方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述的电网标准文档的语义分析整合方法的步骤。


技术总结
本发明公开了一种电网标准文档的语义分析整合方法及系统,涉及电网标准文档加工技术领域,包括收集并预处理电网系统文档,采用第一模型识别所述电网系统文档中的电力实体;采用第二模型挖掘所述电力实体间的关系,并进行知识融合,构建知识图谱;对所述电网系统文档中的用户工单进行统计分析和分类,利用分类结果强化知识图谱中的现有关系,完成电网系统文档的分析整合。本发明通过使用双向长短期记忆网络和条件随机场的组合结构,该方法能够有效捕捉上下文信息和标签之间的依存关系,大幅提升了电力实体识别的准确性。同时,引入电力领域特定的实体嵌入信息,进一步增强了模型对电力专业术语的理解能力。

技术研发人员:覃剑,蒋圣超,林正平,王斌,周育忠,裴云庆,陈恺妍
受保护的技术使用者:广西电网有限责任公司电力科学研究院
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-25830.html