一种基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法

专利2025-12-29  7


本发明涉及虚假新闻检测领域,具体涉及一种基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法。


背景技术:

1、虚假新闻检测技术是一项关键技术,旨在应对日益严重的虚假新闻传播问题。在信息爆炸的数字时代,虚假新闻检测技术的应用变得尤为重要。该技术通过利用先进的自然语言处理、图像处理和多模态学习等算法,分析和识别新闻内容的真实性,具有检测准确、适应性强和实时响应等特点。虚假新闻检测技术的应用前景广泛,涵盖了媒体、社交平台和司法等多个领域。在媒体领域,虚假新闻检测技术可以帮助新闻机构确保报道的准确性,防止虚假新闻的传播,维护新闻行业的公信力。在社交平台上,该技术能够有效过滤虚假内容,保障用户获取的信息质量。在司法领域,虚假新闻检测技术可以为法律机构提供有力的技术支持,帮助鉴定和审查证据的真实性。然而,随着技术的发展,虚假新闻的生成方式变得更加复杂和多样化,给虚假新闻检测技术带来了新的挑战。因此,持续研究和改进虚假新闻检测技术是必要的,为应对日益复杂的虚假信息生成手段,提供更可靠的信息真实性验证方案。

2、早期虚假新闻检测任务的关注点仅聚焦在新闻中的单个模态,如图像模态或文本模态。文献“j.ma,w.gao,p.mitra,s.kwon,b.j.jansen,k.f.wong,m.cha,detectingrumors frommicroblogs with recurrent neural networks,proceedings of the 25thinternational joint conference on artificial intelligence,2016,pp.3818-3824.”将新闻中的句子输入循环神经网络rnn中,利用隐层向量表示新闻信息,首次将深度学习技术应用到虚假新闻检测任务。然而现在的新闻大多同时包含文本和图像等多模态信息,针对单一模态的检测方法不足以学习到跨模态的特征。为了解决这一问题,文献“s.singhal,r.r.shah,t.chakraborty,p.kumaraguru,s.satoh,spotfake:amulti-modal frameworkfor fake news detection,ieee fifth international conference on multimedia bigdata,2019,pp.39-47.”使用预训练模型bert和vgg19分别提取文本和图像特征,拼接两种特征进行虚假新闻检测。随后,研究者们发现单模态特征和多模态融合特征对虚假新闻检测都有积极贡献。文献“y.chen,d.li,p.zhang,j.sui,q.lv,l.tun,l.shang,cross-modalambiguity learning for multimodal fake news detection,proceedings of the acmweb conference,2022,pp.2897-2905”提出跨模态对齐辅助任务,利用kl散度测量模态之间的匹配度,并将匹配度得分加权到单模态特征和多模态融合特征。文献“q.ying,x.hu,y.zhou,z.qian,d.zeng,s.ge,bootstrapping multi-view representations for fakenews detection,proceedings of the aaai conference on artificial intelligence,2023,pp.5384-5392.”提出通过单模态预测和跨模态一致性学习来分解单模态和多模态特征,然后自适应地重新加权和引导以实现虚假新闻检测。然而,单模态特征中并不是所有信息都对虚假新闻检测任务有效,而且过于关注多模态融合特征,即模态之间的共性特征(一致性特征),忽略了各模态的特有特征(不一致性特征)对检测任务的贡献,对新闻各模态特征的使用不够全面。相比之下,本发明专门设计,通过捕获模态间的共性特征和各个模态的特有特征,以促进模态之间的特征互补增强和有效利用单模态特征。考虑到实际应用的问题,本发明旨在提高社交媒体传播场景下虚假新闻检测任务的性能,提出一种基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法。


技术实现思路

1、本发明提出一种基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法,实现对社交媒体上传播的新闻进行真伪识别,整体的虚假新闻检测框架包括五个结构:基于预训练模型的特征编码器,基于共同注意力机制的共性特征提取模块,基于单模态特征过滤策略的图像特有特征提取分支和文本特有特征提取分支,基于余弦相似度分数自适应调整特征使用的虚假新闻分类器。如图1所示,虚假新闻检测框架的具体流程为:将新闻的文本和图片成对送入预训练模型编码器(文本长度不超过300,图片大小为224×224),使用bert预训练模型编码文本模态的语义特征rt,使用swin-t预训练模型编码图像模态的语义特征ri,使用clip多模态预训练模型编码文本和图像两个模态的全局特征ct和ci;语义特征rt和ri通过共性特征提取模块得到被增强后的模态之间的共性特征rm(为便于理解,下文用一致性特征替代共性特征);同时,rt和ri分别通过文本特有特征提取分支和图像特有特征提取分支计算不一致性分数向量获取文本和图像的特有特征rt_incon和ri_incon(为便于理解,下文用不一致性特征替代特有特征);全局特征ct和ci被用于计算余弦相似度分数,得到归一化到0和1之间的余弦相似度分数,使用余弦相似度分数分别加权rt_incon、ri_incon和rm,自适应调整各特征的使用,最终送入虚假新闻分类器进行新闻真假分类。在以往的方法中,更关注模态之间的一致性特征,且对单模态特征的针对性处理较少,而在本发明中,设计单模态特征过滤策略,可针对性提取各模态的不一致性特征,同时通过余弦相似度分数使各模态的不一致性特征与模态之间的一致性特征共同自适应的参与到虚假新闻检测任务中。主要包括三大内容:

2、(1)提出一个基于共同注意力机制的共性特征提取模块;

3、(2)提出一种单模态特征过滤策略;

4、(3)提出一个基于余弦相似度分数自适应调整特征使用的虚假新闻分类器。

5、具体内容如下:

6、(1)提出一个基于共同注意力机制的共性特征提取模块:构建三对基于共同注意力机制的共同注意力组件(每对组件包含两个共同注意力模块),融合文本和图像两个模态的特征并增强多模态融合特征,捕获模态之间的一致性特征。

7、本发明中的共同注意力机制,一对共同注意力组件包括两个共同注意力模块,每个共同注意力模块的输入特征维度为512,每对共同注意力组件内部共享参数。如图2所示,每个共同注意力模块由一个多头注意力层、一个前馈网络层、一个平均池化层和两个归一化层组成。

8、共性特征提取模块由三对共同注意力组件以及tfn融合策略构成,如图3所示,共同注意力组件1用于融合文本和图像的语义特征rt和ri,共同注意力组件2用于通过图像语义特征ri增强融合特征,共同注意力组件3用于通过文本语义特征rt增强融合特征,最后通过tfn融合策略得到模态之间的一致性特征rm。具体来说,将rt和ri作为共同注意力组件1的输入,每个共同注意力模块的多头注意力层有h=8个头,先将rt和ri分别通过线性变换映射到相同的特征空间,对于每个头h可以表示为:

9、

10、其中和是每个头对应的可学习的权重矩阵,n表示文本长度,p=49表示图像的分块数量,dw和di分别表示文本和图像的语义特征维度,dk=64表示多头注意力层中每个头的query(q)、key(k)和value(v)向量的维度。然后计算单个注意力头的注意力权重,可表示为:

11、

12、其中通过单个注意力权重计算单个注意力头的注意力输出:

13、

14、串联多头注意力层中h个注意力头的注意力输出,并经过线性变换生成多头注意力层最终的输出特征:

15、

16、其中和是线性变换矩阵。通过残差连接和层归一化来更新特征表示,最后将更新后的特征表示通过全连接层再进行层归一化和平均池化成特征向量来作为每一个共同注意力模块的输出,拼接两个输出得到共同注意力组件1融合的多模态融合特征rit:

17、

18、rit=concat(rci,rct) (7)

19、其中layernorm表示层归一化,“”表示平均池化。

20、分别利用ri和rt通过共同注意力组件2和共同注意力组件3对多模态融合特征rit进行特征增强,计算步骤与上述共同注意力组件1一致:

21、

22、通过tfn策略融合经过特征增强的两个多模态融合特征rit_t和rit_i。先分别对rit_t和rit_i用1进行维度扩充,再求笛卡尔积:

23、rm=cartesian[concat(rit_t,1),concat(rit_i,1)] (9)

24、其中cartesian表示计算笛卡尔积。通过上述步骤,最终得到融合各个模态特征并经过特征增强的多模态融合特征rm,作为模态间的一致性特征参与虚假新闻分类。

25、(2)提出一种单模态特征过滤策略:构建一个单模态特征处理流程,用于剔除单个模态语义特征中与另一个模态相似度高的部分,捕获单个模态特征中的不一致性特征,帮助有效利用单模态特征并过滤无用噪声和冗余信息。

26、本发明中的单模态特征过滤策略,应用于图1所示的图像特有特征提取分支和文本特有特征提取分支。在图像特有特征提取分支中,其中一个输入为swin-t模型提取的图像语义特征ri,另一个输入来自于(1)中所述共性特征提取模块的共同注意力组件1提取的通过文本注意力加权的图像特征rci,ri与rci相乘得到图像相似度矩阵:

27、

28、然后对图像相似度矩阵按列求和得到图像相似度向量,再通过softmax函数对图像相似度向量进行归一化得到图像相似度分数向量:

29、

30、其中∑表示按列求和。

31、翻转图像相似度分数向量,即用1减图像相似度分数向量,得到图像不一致性分数向量,将图像不一致性分数向量加权到图像语义特征ri,计算得到图像不一致性特征。最后通过自注意力机制对获取到的图像不一致性特征进行过滤,输出图像模态的最终不一致性特征ri_incon:

32、ri_incon=1-ris, ri_incon=ffn(sa(pm(ri_incon,ri))) (12)

33、其中pm表示点乘运算,sa表示自注意力机制。对应位置的图像不一致性分数越高表明图像这个区域在进行一致性特征提取时被关注的越少,说明具有不一致性。得到的图像不一致性特征可能会存在一些无用信息和干扰噪声,所以通过自注意力机制进行过滤。

34、在文本特有特征提取分支中,输入的特征为bert模型提取的文本语义特征rt和(1)中所述共性特征提取模块的共同注意力组件1提取的通过图像注意力加权的文本特征rct,文本不一致性特征rt_incon的提取过程与图像特有特征提取分支获取图像不一致性特征的过程相同。

35、(3)提出一个基于余弦相似度分数自适应调整特征使用的虚假新闻分类器:构建一个用于分类虚假新闻的网络,输入为经过余弦相似度分数加权后的模态间一致性特征和各个模态的不一致性特征,输出为新闻的预测标签,即真或假。

36、本发明中的虚假新闻分类器,通过余弦相似度分数加权(1)中所述的模态间一致性特征rm以及(2)中所述的图像和文本的不一致性特征ri_incon和rt_incon,自适应调整各个特征在虚假新闻检测任务中的贡献程度,指导分类器学习。具体来说,如图1所示,通过clip模型提取的全局特征ct和ci计算余弦相似度分数,并将其归一化到0和1之间:

37、

38、用归一化后的余弦相似度分数sim加权图像不一致性特征ri_incon和文本不一致性特征rt_incon,用1减sim加权模态间一致性特征rm:

39、rif=sim·ri_incon, rtf=sim·rt_incon, rmf=(1-sim)·rm (14)

40、拼接特征rtf,rif和rmf,送入虚假新闻分类器:

41、y'=classifier(concat(rif,rtf,rmf)) (15)

42、其中y'是预测标签(0或1),classifier表示虚假新闻分类器,由两层全连接网络和relu激活函数组成。这里用到的损失函数是二进制交叉熵损失:

43、lbce=-[ylog(y')+(1-y)log(1-y')] (16)

44、其中y表示真实标签,y'表示预测标签。

45、与现有技术相比,上述方案至少具有以下显著效果:

46、1.本发明提供一种基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法,虚假新闻检测框架中的共性特征提取模块可以提取模态之间的一致性特征。本发明中的共性特征提取模块,可以将图像语义特征和文本语义特征通过共同注意力机制进行特征融合,并使用各模态的语义特征对融合特征进行特征增强。与现有方法相比,现有方法仅考虑各模态特征之间的简单融合,学习到的跨模态的特征不够多甚至学习不到跨模态的特征,而在本方案中,由于在融合各个模态的特征之后,又重新引入各模态特征对融合特征进行特征增强,充分促进模态间的特征交互,能够有效帮助模态间信息相互理解。

47、2.本发明提供一种基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法,虚假新闻检测框架中的文本特有特征提取分支和图像特有特征提取分支可以捕获对应模态的不一致性特征。本发明中的单模态特征过滤策略应用于文本特有特征提取分支和图像特有特征提取分支,可以对单模态特征计算不一致性分数向量,从而加权对应单模态语义特征捕获单个模态的不一致性特征,并利用自注意力机制过滤无用噪声。与现有方法相比,现有方法大多关注于模态间的一致性特征,且对单模态特征的处理没有针对性,而在本方案中,同时关注模态间的一致性特征和各模态的不一致性特征,设计单模态特征过滤策略,针对性提取不一致性特征,过滤单模态特征中的无用噪声和冗余信息,帮助有效利用单模态特征。


技术特征:

1.一种基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法,其特征在于,利用预训练模型获取多模态新闻图像和文本的语义特征和全局特征,构建一个基于共同注意力机制的共性特征提取模块,该模块将文本模态和图像模态的语义特征进行融合互补,提取图像和文本之间的共性特征(为便于理解,下文用一致性特征替代共性特征),结合单模态特征过滤策略,针对单个模态计算不一致性分数向量以提取文本和图像的特有特征(为便于理解,下文用不一致性特征替代特有特征),通过余弦相似度分数以自适应融合一致性特征和不一致性特征,将所有特征送入分类器进行虚假新闻分类,具体包括:

2.根据权利要求1所述的基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法,其特征在于,所述基于单模态特征过滤策略的图像特有特征提取分支和文本特有特征提取分支中,使用的单模态特征过滤策略是相同的,即计算对应模态的不一致性分数向量,使用不一致性分数向量加权对应模态的语义特征,通过自注意力机制过滤冗余信息和无用噪声,最后得到对应模态的不一致性特征,具体包括:

3.根据权利要求1所述的基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法,其特征在于,所述基于余弦相似度分数自适应调整特征使用的虚假新闻分类器,使用计算得到的余弦相似度分数加权模态之间的一致性特征和各模态不一致性特征,通过虚假新闻分类器分类虚假新闻,具体包括:


技术总结
本发明涉及一种基于图文共性特征和特有特征自适应选择融合的虚假新闻检测方法,涉及虚假新闻检测领域。其发明内容主要包括:提出一种利用新闻模态间的共性特征(一致性特征)和各个模态的特有特征(不一致性特征)进行虚假新闻检测的深度学习方法,提出基于共同注意力机制的共性特征提取模块,促进模态间的特征互补和交互理解,捕获模态之间的一致性特征;设计单模态特征过滤策略,过滤单模态特征中的冗余信息和无用噪声,提取各个模态的不一致性特征。通过余弦相似度分数自适应调整各特征的使用,有效提高模型鉴别虚假新闻的准确率。适用于实际场景中的虚假新闻检测任务,在实际生活场景下具有实际的应用价值。

技术研发人员:廖鑫,李傲寒,杨俊雪
受保护的技术使用者:湖南大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-28711.html