本公开涉及文档推荐,具体涉及基于知识图谱的文档个性化推荐方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
2、由于信息技术的飞速发展,海量信息的产生给人们带来了多种文档资源的同时,也使得如何从海量资源中快速准确地获取用户感兴趣的文档成为待优化的问题。
3、传统的推荐方法是文本推荐算法,它是主要包括内容推荐和协同过滤推荐两种。内容推荐是依据文档的内容信息计算匹配度进行推荐,但是推荐结果过于同质化,缺乏多样性,且基于内容的推荐对于文本内容的特征提取存在局限性且不易提取;协同过滤推荐则通过分析用户的行为和其他用户去做比较,找到相似的用户群体进行推荐,该方式需要有大量用户作为基础,存在冷启动问题,推荐对用户关系依赖性比较强,新用户得不到准确的推荐资源且推荐的结果准确性较差。
技术实现思路
1、本公开为了解决上述问题,提出了基于知识图谱的文档个性化推荐方法及系统,通过预测用户行为偏好,基于知识图谱检索相关性文档,并对相关性文档进行分析过滤后推荐给用户。
2、根据一些实施例,本公开采用如下技术方案:
3、基于知识图谱的文档个性化推荐方法,包括:
4、获取本地文档,提取文档文本内容,并对文档文本内容预处理;
5、将预处理后的文档文本内容输入双向循环神经网络,提取文本特征,将文本特征再输入至crf模型中,获取每个词的分类结果,通过计算整个文本句子的分数,获取实体类型,对每种实体进行实体关系抽取,获取实体关系以及属性,构建文本知识图谱;
6、获取用户的历史行为数据,构建用户的兴趣偏好行为分析模型,建立基于文本知识图谱的语义匹配矩阵,对用户兴趣和文档资源实体属性进行匹配度计算,获得文档资源实体与语义关系对应的兴趣匹配矩阵,获取用户兴趣指标;
7、根据所述用户兴趣指标对不同的标准文档进行排序,生成个性化的文档推荐列表。
8、根据一些实施例,本公开采用如下技术方案:
9、基于知识图谱的文档个性化推荐系统,包括:
10、数据获取模块,用于获取本地文档,提取文档文本内容,并对文档文本内容预处理;
11、知识图谱构建模块,用于将预处理后的文档文本内容输入双向循环神经网络,提取文本特征,将文本特征再输入至crf模型中,获取每个词的分类结果,通过计算整个文本句子的分数,获取实体类型,对每种实体进行实体关系抽取,获取实体关系以及属性,构建文本知识图谱;
12、预测模块,用于获取用户的历史行为数据,构建用户的兴趣偏好行为分析模型,建立基于文本知识图谱的语义匹配矩阵,对用户兴趣和文档资源实体属性进行匹配度计算,获得文档资源实体与语义关系对应的兴趣匹配矩阵,获取用户兴趣指标;
13、推荐模块,用于根据所述用户兴趣指标对不同的标准文档进行排序,生成个性化的文档推荐列表。
14、根据一些实施例,本公开采用如下技术方案:
15、一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于知识图谱的文档个性化推荐方法。
16、与现有技术相比,本公开的有益效果为:
17、本公开的基于知识图谱的文档个性化推荐方法,对于新用户来说,由于缺乏该用户历史数据,所以会遇到冷启动问题,可以先推荐热门信息以代替个性化推荐,或者在用户初次登录时,用户自定义选择个人兴趣标签,根据标签内容进行推荐文档;对于使用过一段时间的用户,根据用户的历史行为数据(包括搜索关键字、阅读时长频率、点赞评论互动内容、上传下载文档内容类型、浏览时间段等指标),构建该用户的兴趣偏好行为分析模型,根据用户兴趣和知识图谱的关联关系,生成个性化的推荐列表,可扩展性强,随着知识图谱的不断完善和扩充,推荐效果会越来越好,且应用场景广泛,可以应用于搜索引擎、个性化阅读、在线学习等领域,帮助用户快速获取所需知识,提高信息获取的效率和准确性。
18、本公开的基于知识图谱的文档个性化推荐方法,通过构建文档知识图谱,通过图的形式被组织起来,其中实体是构成图谱的基本单元,指现实世界中的事物或概念,他们通过图的形式被组织起来,在本方法中实体代表用户、文档,节点代表实体或概念,边代表实体或概念之间的各种关系,知识图谱的结构化表示方式使得推荐结果更加准确可靠;通过知识图谱的快速查询和匹配,能够大大提高推荐的效率;根据用户兴趣和知识图谱的关联关系,生成个性化的推荐列表。
1.基于知识图谱的文档个性化推荐方法,其特征在于,包括:
2.如权利要求1所述的基于知识图谱的文档个性化推荐方法,其特征在于,对文档文本内容预处理,包括:统一文本格式,清洗文本数据,将文本内容中的非法字符通过规则清洗,采用hanlp分词工具对非结构化的文本数据进行分词处理,删除不具有实际含义的字符,通过自动化脚本对文本内容进行匹配标注。
3.如权利要求1所述的基于知识图谱的文档个性化推荐方法,其特征在于,知识图谱的表示方式是三元组,定义为g=(e,r,s),其中e={e1,e2,…}表示知识图谱中所有实体的集合;r={r1,r2,…}表示知识图谱中所有关系的集合;s={(h,r,t)}表示三元组的集合,单个三元组由头实体h、关系r、尾实体t组成。
4.如权利要求1所述的基于知识图谱的文档个性化推荐方法,其特征在于,
5.如权利要求1所述的基于知识图谱的文档个性化推荐方法,其特征在于,抽取实体与实体之间存在的关系,将分散的知识进行关联,对文本内容通过依存句法分析实现关系抽取,结合关系进行匹配,得到实体、关系、属性三元集合。
6.如权利要求1所述的基于知识图谱的文档个性化推荐方法,其特征在于,采用聚类算法进行实体消歧,使得聚类结果中每一个类别都对应于一个目标实体上,包括基于表层特征的实体指称项相似度计算、基于扩展特征的实体指称项相似度计算、基于社会化网络的实体指称项相似度计算。
7.如权利要求1所述的基于知识图谱的文档个性化推荐方法,其特征在于,
8.如权利要求1所述的基于知识图谱的文档个性化推荐方法,其特征在于,
9.基于知识图谱的文档个性化推荐系统,其特征在于,包括:
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-8任一项所述的基于知识图谱的文档个性化推荐方法。