本发明涉及自然语言处理领域,更具体的说是涉及一种新闻事件分类方法。
背景技术:
1、通过对新闻事件进行分类,可以让读者更容易地找到自己感兴趣的内容,节约阅读时间。可以帮助新闻机构或平台更好地组织和管理大量的新闻内容,便于检索和归档。分类可以帮助对各类事件进行监测和分析,为政府、企业和机构提供决策支持和舆情反馈。
2、当前,传统方法可能只使用新闻文章的原文本进行分类,而忽略了其他来源的相关信息。且基于简单的规则或词表,无法充分捕捉文本中的重要信息。
3、同时,使用简单的相似性计算方法,无法准确评估关键词之间的语义和上下文关系。且缺乏对相似性计算结果的处理和转化方式,导致分类结果单一。
4、因此,如何设计一种新闻事件分类方法,为数据的获取及具体的处理方式提供多元化的技术方案,进而提供更准确、全面和可解释的新闻事件分类结果是本领域技术人员亟需解决的问题。
技术实现思路
1、有鉴于此,本发明提供了一种新闻事件分类方法,可以捕捉文本中的重要信息,采用多层次的关键词词库和相似性计算方法,可以更好地捕捉关键词之间的语义和上下文关系,且可以更灵活地确定分类结果。
2、为了实现上述目的,本发明采用如下技术方案:
3、第一方面,本发明提供了一种新闻事件分类方法,包括:
4、s1、获取新闻事件的文本数据;所述文本数据包括:直接数据和间接数据;
5、s2、利用关键词提取融合模型提取所述文本数据中的若干关键词,获得关键词词组;
6、s3、基于多层次关键词词库,对所述关键词词组进行多阶段相似性计算,获得相似性计算结果;所述多层次关键词词库包括:一级词库、二级词库和三级词库;
7、s4、对所述相似性计算结果进行归一化处理,并基于多层感知网络模型,获得新闻事件的概率分布结果;
8、s5、基于所述概率分布结果,将概率值最高和次高的两个新闻事件概率值差值,和预设概率阈值进行比较,获得新闻事件的分类结果。
9、其中,所述s1中,利用新闻网站和数据提供商提供的api接口获取直接数据;利用编写爬虫模型访问新闻网站或社交媒体平台获取间接数据。
10、进一步的,利用关键词提取融合模型提取所述文本数据中的关键词,包括:
11、s21、对所述文本数据进行预处理,包括:分词和去除停用词;
12、s22、基于预处理后的文本数据,计算每个词项的词频tf和逆文档频率idf,获得每个词项的tf-idf值;
13、s23、将每个词项作为图的节点,使用共现矩阵计算词项之间的关系,构建文本图;
14、s24、利用textrank算法对所述文本图进行排序,确定每个词项的textrank得分;
15、s25、将所述tf-idf值和textrank得分进行加权融合,获得每个词项的综合得分;
16、s26、基于所述每个词项的综合得分进行排序,并通过预设得分阈值提取若干关键词,获得关键词词组。
17、进一步的,所述s3中,多层次的关键词词库基于智能推荐机制进行更新。
18、进一步的,所述s3中,对所述关键词词组进行多阶段相似性计算,包括:
19、s31、计算关键词词组与三级词库中每个词汇的相似性:
20、
21、s32、计算关键词词组与二级词库中每个词汇的相似性:
22、
23、s33、计算关键词词组与一级词库中每个词汇的相似性:
24、
25、其中,c(m,n)表示关键词词组向量am与二级词库中词向量bn距离。
26、进一步的,所述s4中,新闻事件分类模型包括:输入层、隐藏层和输出层;所述隐藏层后设有relu激活函数;所述输出层后设有softmax激活函数。
27、进一步的,所述s5中,基于所述概率分布结果,将概率值最高和次高的两个新闻事件概率值差值,和预设概率阈值进行比较,获得新闻事件的分类结果,包括:
28、若概率值最高和次高的两个新闻事件概率值差值大于预设概率阈值,输出概率值最高的新闻事件;
29、若概率值最高和次高的两个新闻事件概率值差值小于预设概率阈值,输出输出最高和次高的两个新闻事件。
30、第二方面,本发明提供了一种新闻事件分类系统,包括:
31、数据获取模块:用于获取新闻事件的文本数据;所述文本数据包括:直接数据和间接数据;
32、关键词提取模块:用于利用关键词提取融合模型提取所述文本数据中的若干关键词,获得关键词词组;
33、相似性计算模块:用于基于多层次关键词词库,对所述关键词词组进行多阶段相似性计算,获得相似性计算结果;所述多层次关键词词库包括:一级词库、二级词库和三级词库;
34、概率分布计算模块:用于对所述相似性计算结果进行归一化处理,并基于多层感知网络模型,获得新闻事件的概率分布结果;
35、分类结果输出模块:用于基于所述概率分布结果,将概率值最高和次高的两个新闻事件概率值差值,和预设概率阈值进行比较,获得新闻事件的分类结果。
36、第三方面,本发明提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述新闻事件分类方法。
37、第四方面,本发明提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述新闻事件分类方法。
38、经由上述的技术方案可知,与现有技术相比,本发明提供的新闻事件分类方法存在以下有益效果:
39、1、利用关键词提取融合模型可以自动从文本数据中提取若干关键词。其可以捕捉文本中的重要信息,并将其转化为关键词词组,提供更有效的特征表示。相比于传统的基于规则或词表的关键词提取方法,融合模型可以更好地适应不同领域和语境下的关键词提取需求。
40、2、采用多层次的关键词词库和相似性计算方法,可以更好地捕捉关键词之间的语义和上下文关系。通过多阶段的相似性计算,可以更准确地评估关键词之间的相似性,提高分类的准确性和鲁棒性。
41、3、对相似性计算结果进行归一化处理,并利用多层感知网络模型进行处理,可以将原始数据映射到概率分布结果。其可以有效地处理不同数据尺度和范围之间的差异,并将其转化为概率分布,提供更可解释和可比较的分类结果。
42、4、通过将概率值最高和次高的两个新闻事件的概率值差值与预设概率阈值进行比较,可以根据差值的大小灵活地确定分类结果。兼顾了分类结果的准确性和全面性,在概率差值较大时给出确定的分类结果,在概率差值较小时提供更全面的信息。
1.一种新闻事件分类方法,其特征在于,包括:
2.根据权利要求1所述的一种新闻事件分类方法,其特征在于,所述s1中,利用新闻网站和数据提供商提供的api接口获取直接数据;利用编写爬虫模型访问新闻网站或社交媒体平台获取间接数据。
3.根据权利要求1所述的一种新闻事件分类方法,其特征在于,所述s2中,利用关键词提取融合模型提取所述文本数据中的关键词,包括:
4.根据权利要求3所述的一种新闻事件分类方法,其特征在于,所述s3中,多层次的关键词词库基于智能推荐机制进行更新。
5.根据权利要求1所述的一种新闻事件分类方法,其特征在于,所述s3中,对所述关键词词组进行多阶段相似性计算,包括:
6.根据权利要求1所述的一种新闻事件分类方法,其特征在于,所述s4中,新闻事件分类模型包括:输入层、隐藏层和输出层;所述隐藏层后设有relu激活函数;所述输出层后设有softmax激活函数。
7.根据权利要求1所述的一种新闻事件分类方法,其特征在于,所述s5中,基于所述概率分布结果,将概率值最高和次高的两个新闻事件概率值差值,和预设概率阈值进行比较,获得新闻事件的分类结果,包括:
8.一种新闻事件分类系统,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的新闻事件分类方法。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的新闻事件分类方法。