基于知识图谱库与文本向量库的领域智能问答系统及方法

专利2025-10-06  4


本发明涉及知识图谱和智能问答领域,具体为基于知识图谱库与文本向量库的领域智能问答系统及方法。


背景技术:

1、知识图谱和智能问答系统是自然语言处理领域的两个重要应用方向。由于传统的关系型数据库在处理复杂关联数据、多跳查询以及语义网络构建等方面存在局限性,因此,图结构数据库作为一种新型的数据存储和管理方式,逐渐成为组织此类数据格式的首选。近年来,智能问答系统在技术层面不断取得突破,其应用范围已广泛渗透至各个行业和领域,为用户提供高效、精准的信息检索与问答服务。

2、当前智能问答系统大多依赖于通用领域的大语言模型来提供问答服务。然而,针对特定垂直领域的问题,这些模型往往存在知识不足或产生幻觉性回答的问题。为应对这一挑战,研究者们引入了外挂知识库策略,即在大语言模型的基础上,结合外挂的文本向量库进行文本块向量相似度检索。这种方法在一定程度上减轻了模型在特定领域知识的缺失和幻觉性问题。然而,采用文本块切分的方式可能会破坏文本语义的连续性,可能将完整的语义信息分为两部分,从而导致系统输出的回答可能出现信息不完整或逻辑不连贯的问题,为此本发明提出了基于知识图谱库与文本向量库的领域智能问答系统及方法。


技术实现思路

1、本发明的目的在于提供基于知识图谱库与文本向量库的领域智能问答系统及方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,基于知识图谱库与文本向量库的领域智能问答系统,所述系统包括知识管理系统和领域智能问答系统两个子系统,具体为:

3、知识管理系统用于对两种知识库的管理,包括:

4、知识库领域管理模块:负责对不同领域知识进行分类、组织和维护;提供领域信息的增删改查操作;

5、知识图谱库管理模块:本体建模功能支持构建领域本体,定义类、属性、关系等概念模型,为知识图谱提供结构化的框架;知识实例管理功能实现对知识图谱中具体知识实例的添加、编辑、删除和查询操作;知识抽取更新功能通过模型实现从非结构化文本中自动地抽取知识,定期更新知识图谱;

6、文本向量库管理模块:负责存储和管理文本数据的向量表示,支持文本内容的快速检索和分析;提供文本向量的导入、导出、更新和维护功能;支持向量库的索引构建和查询优化;

7、领域智能问答系统主要为用户提供领域知识智能问答服务,包括:

8、领域问答模块:该模块依托于结构化与非结构化知识的检索结果,为用户提供精准的问题解答服务;

9、问题推荐模块:基于当前问答对及相关检索信息,智能生成并推荐下一个潜在问题;

10、语音交互模块:实现用户查询的语音识别输入功能,以及答案输出的语音合成朗读功能;

11、问题库存储与管理模块:该模块负责存储用户的历史提问记录,并通过算法分析计算热点问题;

12、答案溯源展示模块:提供答案来源的透明化展示。

13、根据上述的基于知识图谱库与文本向量库的领域智能问答方法,包括如下步骤:

14、步骤1:按照先本体建模再构建实例的方法,通过手动或批量导入的方式,构建领域的知识图谱;

15、步骤2:构建领域文本向量库,系统读入文本文件,将读取的文件按照基于规则或基于语义的切分算法进行文本切分,得到多个文本块,将多个文本块向量化后存放再向量数据库中形成领域文本向量库;

16、步骤3:用户查询输入,支持语音输入和文字输入两种输入方式,同时对用户查询向量化处理,;

17、步骤4:利用向量化的用户查询,在文本向量库中进行检索。采用余弦相似度算法,筛选出相似度最高的前三个文本块,作为回答用户查询的上下文信息;

18、步骤5:将向量化的用户查询应用于图数据库中的向量化检索。通过余弦相似度算法,筛选出相似度超过设定阈值的节点作为候选节点,并获取这些候选节点的上、下一跳节点,以形成回答用户查询的子图信息;

19、步骤6:结合步骤4和步骤5中获取的上下文信息及子图信息,采用prompt工程结合大型语言模型的方法,实现答案的自然语言生成;

20、步骤7:基于步骤6生成的答案,系统为用户推荐下一个其可能感兴趣的问题;

21、步骤8:基于步骤6中生成的答案,系统实现答案语音播报功能;

22、步骤9:基于步骤6中用户查询,将其存入问题库中;

23、步骤10:基于步骤6中的问答情况,系统会完成答案来源的溯源功能,包括知识图谱和非结构化文本的两种溯源。

24、优选的:基于本体论的知识图谱构建方法、知识自动化抽取算法以及数据存储机制,包括:

25、基于本体论构建知识图谱包括本体建模,以及实例的构建,本体建模包括本体及其属性和关系,实例构建时按照建模的本体添加实例及其属性和关系;

26、知识自动化抽取算法是利用通过使用领域数据自主训练的chinese-robert-wwm模型完成对非结构化文本的知识自动抽取,并可通过人工审核等方式完成知识融合;

27、在实例构建过程中,为每个实例自动添加隐藏属性,这些隐藏属性的设计旨在支持知识图谱的向量化检索以及其他系统功能的实现且不直接暴露于系统界面中。

28、优选的:使用知识图谱相似节点检索算法,具体包括,

29、将用户的查询请求向量化;

30、采用余弦相似度算法,计算用户查询向量与图数据库中所有节点的向量表示之间的相似度,根据相似度得分,筛选出与用户查询最相关的节点集合,作为候选节点;

31、对每个候选节点执行进一步的图遍历操作,查询并获取其直接连接的下一跳节点,以构建与用户查询相关的子图,将构建的子图作为查询结果返回,该子图包含了与用户查询最相关的信息路径和网络结构,以提供全面且相关的答案。

32、优选的:使用定制化prompt+大语言模型生成准确答案,包括,

33、设计并实施定制化的提示策略,以确保大型语言模型能够精确理解和执行指定的任务,该策略涉及构建针对性强的指令和上下文信息,以引导模型生成期望的输出

34、本发明相较于现有技术,其有益效果为:

35、本发明提供的基于知识图谱与文本向量库的领域智能问答系统及方法,其结合知识图谱和文本向量库管理特定领域的结构和非结构的知识,同时构建知识图谱可使用半自动化的方式,两知识库取长补短,基于用户查询使用语义化的向量相似度检索算法查找到相关知识,并使用大语言模型的自然语言理解和生成能力,将正确的答案返回给用户。综上实现了对特定领域相关数据的检索与智能问答,提高了用户查询特定领域问题的效率和准确性。



技术特征:

1.基于知识图谱库与文本向量库的领域智能问答系统,所述系统包括知识管理系统和领域智能问答系统两个子系统,其特征在于:

2.根据权利要求1所述的基于知识图谱库与文本向量库的领域智能问答方法,其特征在于,包括如下步骤:

3.根据权利要求2所述的基于知识图谱库与文本向量库的领域智能问答方法,其特征在于:基于本体论的知识图谱构建方法、知识自动化抽取算法以及数据存储机制,包括:

4.根据权利要求3所述的基于知识图谱库与文本向量库的领域智能问答方法,其特征在于:使用知识图谱相似节点检索算法,具体包括,

5.根据权利要求4所述的基于知识图谱库与文本向量库的领域智能问答方法,其特征在于:使用定制化prompt+大语言模型生成准确答案,包括,


技术总结
本发明涉及知识图谱和智能问答领域,基于知识图谱库与文本向量库的领域智能问答系统及方法,首先用户将收集和整理到某领域下的非结构化文本以及结构化的知识分别存入文本向量库以及知识图谱中,用户提交查询请求后,系统采用定制的知识检索算法对文本向量库和知识图谱进行并行检索,以识别和提取相关知识点。基于检索到的知识点,系统利用大语言模型生成自然语言的问答回复,实现了知识驱动的问答过程。基于知识图谱库和文本向量库的领域问答提高了系统回答的准确性和完整性,避免了大语言模型的幻觉性,系统的回答可溯源,实现了系统的可信性。

技术研发人员:刘兴丽,洪亮,王艳涛,柳始群,李宗雨,邵宗曦
受保护的技术使用者:黑龙江科技大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-27180.html