一种网络媒体推送数据匹配方法及其系统与流程

专利2025-06-22  16


本发明属于数据处理,具体涉及一种网络媒体推送数据匹配方法及其系统。


背景技术:

1、随着科技的飞速发展,网络媒体逐渐取代了纸媒,成为了信息传播的主流渠道。相较于传统的纸媒,网络媒体具有实时性强、互动性高、传播速度快等优势,能够更快速地传递信息,更广泛地覆盖受众;网络媒体已经成为人们获取信息的主要途径。

2、随着各地融媒体项目的持续推进和深入发展,对热点的监控和新闻推送的及时性需求日益增强。目前,网络媒体的编辑们主要采用人肉观察手机推送消息,手动分享链接然后获取稿件内容的方式创建发布文稿;增加了编辑的工作负担,需要花费大量时间和精力去观察手机推送消息,工作效率低;并且无法实现实时监控当天的热点新闻,容易错过重要的信息。此外,由于人工操作的不确定性,新闻推送往往不及时,无法满足用户对实时新闻的需求。


技术实现思路

1、本发明的目的在于提供一种网络媒体推送数据匹配方法及其系统,该方法通过数据抓取客户端抓取推动数据后再通过数据匹配判断数据有效性,减少编辑的工作量,并提高实时新闻的推动。

2、为实现上述目的,本发明采用如下技术方案:

3、一种网络媒体推送数据匹配方法,包括如下步骤:

4、步骤1:解析抓取文章的数据结构,并对数据结构进行查重;其中,所述数据结构包括标题subtitle;

5、步骤2:对所述标题subtitle进行处理,所述处理是指先过滤无实质含义的字符,其次判断是否属于特殊专题文章;

6、步骤3:对非特殊专题文章的标题subtitle进行搜索,并将抓取文章的标题subtitle和搜索的标题进行相似度计算,若有相似度高于第一阈值的搜索文章抓取并存入抓取库;若无相似度高于第一阈值搜索结果进行二次匹配;

7、所述相似度f=ay+bt,其中y为匹配度,通过莱文斯坦距离计算;t为时间系数,t为时间,单位为min;a、b为权重系数,且a+b=1,a≥b;

8、步骤4:二次匹配包括先将标题subtitle进行分词,并对每个分词进行搜索,统计搜索结果中同一标题出现次数,即统计同一标题有多个分词被命中,根据分词命中计算得分,将得分高于第二阈值的搜索文章抓取并存入抓取库;

9、所述得分n为命中分词的数量,m为分词的总数量,t为时间系数,t为时间,单位为min;z为来源系数,来源相同为1,来源不同0;c、d、e为权重系数,且c+d+e=1,e>c>d;

10、步骤5:对抓取库内的文章聚类分析,聚类分析是指将抓取到抓取库内文章进行两两之间的相似度计算,将相似度高于第三阈值的两个文章进行关联。

11、进一步地,步骤1中所述查重采用md5散列算法实现。

12、进一步地,步骤2中所述判断是否属于特殊专题文章是指将标题subtitle与特殊关键词库的关键词进行匹配,判断是否符合特殊关键词,如果符合则属于特殊专题,特殊专题的文章直接采用一定时间范围内的最新发布此专题的系列文章,一定时间范围是指12~24h内。

13、进一步地,步骤5中仅对8~15min以内抓取到的文章进行聚类分析。

14、本发明还提供了一种实施所述的网络媒体推送数据匹配方法的系统,包括:数据抓取模块,用于抓取文章并将其发送至数据预处理模块;

15、数据预处理模块,用于解析抓取文章的数据结构,并对数据结构进行查重;然后对所述标题subtitle进行处理,所述处理是指先过滤无实质含义的字符,其次判断是否属于特殊专题文章;

16、数据匹配模块,用于对非特殊专题文章的标题subtitle与搜索文章之间进行匹配,获取准确有效的目标文章并存入抓取库中;

17、匹配包括首次匹配、二次匹配;首次匹配到目标文章则不需进行二次匹配,否则进行二次匹配;

18、首次匹配是指对非特殊专题文章的标题subtitle进行搜索,并将抓取文章的标题subtitle和搜索的标题进行相似度计算,将相似度高于第一阈值的搜索文章抓取并存入抓取库,所述相似度f=ay+bt,其中y为匹配度,通过莱文斯坦距离计算;t为时间系数,t为时间,单位为min;a、b为权重系数,且a+b=1,a≥b;

19、二次匹配包括先将标题subtitle进行分词,并对每个分词进行搜索,统计搜索结果中同一标题出现次数,即统计同一标题有多个分词被命中,根据分词命中计算得分,将得分高于第二阈值的搜索文章抓取并存入抓取库;

20、所述得分n为命中分词的数量,m为分词的总数量,t为时间系数,t为时间,单位为min;z为来源系数,来源相同为1,来源不同0;c、d、e为权重系数,且c+d+e=1,e>c>d。

21、进一步地,抓取库中还有数据关联模块,数据关联模块是指将抓取到抓取库内文章进行两两之间的相似度计算,将相似度高于第三阈值的两个文章进行关联。

22、本发明提出了一种创新的推送数据匹配方法,这种方法能够实现快速匹配,自动发布推送稿件,大大提高了工作效率和新闻推送的及时性。同时,还建立了抓取库和推送库,用于汇总和总结当天的热点新闻,以便更好地满足业务需求场景。

23、通过本发明的数据匹配方可以更好地掌控热点,提高新闻发布的及时性和准确性;为用户提供更加优质的信息服务,推动融媒体项目的发展迈上新的台阶。



技术特征:

1.一种网络媒体推送数据匹配方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种网络媒体推送数据匹配方法,其特征在于,步骤1中所述查重采用md5散列算法实现。

3.根据权利要求1所述的一种网络媒体推送数据匹配方法,其特征在于,步骤2中所述判断是否属于特殊专题文章是指将标题subtitle与特殊关键词库的关键词进行匹配,判断是否符合特殊关键词,如果符合则属于特殊专题,特殊专题的文章直接采用一定时间范围内的最新发布此专题的系列文章,一定时间范围是指12~24h内。

4.根据权利要求1所述的一种网络媒体推送数据匹配方法,其特征在于,步骤5中仅对8~15min以内抓取到的文章进行聚类分析。

5.一种实施权利要求1~4任一所述的网络媒体推送数据匹配方法的系统,其特征在于,包括:

6.根据权利要求5所述的一种实施网络媒体推送数据匹配方法的系统,其特征在于,抓取库中还有数据关联模块,数据关联模块是指将抓取到抓取库内文章进行两两之间的相似度计算,将相似度高于第三阈值的两个文章进行关联。


技术总结
本发明属于数据处理技术领域,具体涉及一种网络媒体推送数据匹配方法及其系统,该方法包括步骤1:解析抓取文章的标,并对标题进行查重;步骤2:对所述标题进行处理;步骤3:对标题进行搜索,并将标题和搜索的标题进行相似度计算,若有相似度高于第一阈值的搜索文章抓取并存入抓取库;步骤4:将标题进行分词,并对每个分词进行搜索,统计搜索结果中同一标题出现次数,根据分词命中计算得分,将得分高于第二阈值的搜索文章抓取并存入抓取库;本发明提出了一种创新的推送数据匹配方法,这种方法能够实现快速匹配,自动发布推送稿件,大大提高了工作效率和新闻推送的及时性。

技术研发人员:龙跃腾,颜涛,朱愚,黄信云,徐嘉诺
受保护的技术使用者:成都华栖云科技有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-25604.html