本发明涉及数据处理,尤其涉及一种基于信息瓶颈原则的多模态推荐方法。
背景技术:
1、在当今信息爆炸的时代,随着互联网用户数量的剧增及数据的海量积累,推荐系统作为个性化信息推送的重要工具,日益发挥着关键作用。推荐系统的核心目标是通过分析用户的行为和偏好,提供量身定制的内容推荐,从而提升用户体验和满意度。传统的推荐系统通常依赖于单一模态的数据,如用户的浏览记录、评分、购买历史等。然而,随着多媒体信息的普及,用户生成的数据形式愈发多样化,包括文本、图像、视频等多模态数据。这些多模态数据不仅提供了用户行为的直接信息,还蕴含着丰富的语义和情感信息。因此,如何有效利用这些多模态信息,已成为推荐系统研究中的一个关键方向。近年来,多模态推荐系统受到了广泛关注,并在学术界和工业界取得了一定进展。然而,现有的方法在实际应用中仍面临显著的局限性。首先,多模态信息的异质性带来了巨大的挑战。不同模态之间的差异可能导致信息融合的困难,从而影响推荐系统的效果。例如,图像和文本在表达方式上存在显著差异,这种差异可能导致模态之间的关联性不足,进而影响推荐的准确性。其次,从大量的多模态数据中挖掘出用户的真实偏好并去除噪声信息,是当前研究中的一个难点。多模态数据中的冗余和噪声信息可能干扰用户偏好的提取,导致推荐结果的准确性下降。最后,许多现有的多模态推荐系统未能有效区分不同模态信息对下游推荐任务的不同贡献,这限制了模型的性能。例如,在某些情况下,文本信息可能比图像信息对推荐结果的影响更大,但如果系统无法正确衡量这种差异,就可能导致推荐结果的不准确。
2、因此,本发明提供一种基于信息瓶颈原则的多模态推荐方法。
技术实现思路
1、本发明针对现有技术的不足,研制一种基于信息瓶颈原则的多模态推荐方法,不仅能够从多模态数据中提取关键信息,并去除冗余和噪声,而且计算物品表征在不同模态下对下游推荐任务的贡献度。
2、本发明解决技术问题的技术方案为:一种基于信息瓶颈原则的多模态推荐方法,包括以下步骤:
3、a)根据amazon数据集中的用户-物品历史交互记录构建数据集;
4、b)通过历史交互记录为每个模态构建一张用户-物品图,将用户和物品的嵌入通过多层图卷积计算得到用户的最终表示和物品的融合嵌入;
5、c)为物品的每个模态构建一张物品-物品相似图,保留相似度最高的前k个物品的邻居,捕获物品间的语义信号,再根据物品模态对于下游推荐任务的贡献度聚合物品语义信号,得到物品的最终表示;
6、d)使用对比学习实现信息瓶颈对模态特征去噪,进一步最大化不同模态用户嵌入的互信息,获取用户的跨模态偏好;
7、e) 通过bpr损失、信息瓶颈对比学习损失、跨模态偏好对比学习损失和adam优化器优化用户物品嵌入。
8、步骤a)具体如下:
9、提取amazon数据集中用户-物品的多模态信息,构建数据集,,数据集中包括个用户构成的用户集合,个物品构成的物品集合,每个物品包含图片和文本两个形式,图片对应视觉嵌入,文本对应文本嵌入,从amazon数据集中提取的物品数据具体为图片数据的4096维物品视觉模态嵌入和文本数据的372维嵌入,再通过用于生成句子嵌入的sentence-transformers将372维的文本嵌入转换为384维物品文本模态嵌入;
10、其中,表示用户,表示物品,表示用户集合中第个用户,表示物品集合中第个物品;
11、并为数据集中每个正样本都增加了一个对应的负样本,正样本为用户与物品的真实交互对,负样本为用户与物品的非交互对。
12、步骤b)具体如下:
13、b-1)物品中图片和文本分别对应视觉模态和文本模态,通过数据集中用户与物品之间的交互关系分别为物品的视觉模态和文本模态构建交互图,进而得到视觉模态的交互图和文本模态的交互图;
14、b-2) 对于用户,基于协同过滤方法,通过id索引将用户的id映射到低维密集向量得到用户的嵌入,用户视觉模态的嵌入矩阵记作,用户文本模态的嵌入矩阵记作;
15、对于物品,使用对应的物品视觉模态嵌入和物品文本模态嵌入进行初始化;
16、然后对齐用户和物品嵌入的维度,通过分别将物品视觉模态嵌入和物品文本模态嵌入的维度缩小来使用户和物品嵌入的维度对齐,具体计算如下:
17、,
18、,
19、其中,和分别表示视觉模态和文本模态的权重矩阵,表示转置,表示物品文本模态的嵌入矩阵,表示物品视觉模态的嵌入矩阵;
20、通过用户视觉模态和文本模态的嵌入矩阵以及物品视觉模态和文本模态的嵌入矩阵得到用户-物品的视觉模态嵌入和用户-物品的文本模态嵌入,具体计算如下:
21、,
22、;
23、b-3)通过多层图卷积计算得到每个模态下第层图卷积的用户-物品嵌入,具体过程如下:
24、对于视觉模态:
25、,
26、,;
27、对于文本模态:
28、,;
29、,;
30、其中,根据视觉模态的交互图和文本模态的交互图来确定和,和分别表示在用户-物品图中用户和物品的一阶邻居,和分别表示视觉模态和文本模态在第层图卷积的用户-物品嵌入,和分别表示视觉模态和文本模态在第层图卷积的用户-物品嵌入,,图卷积共层,;
31、再分别计算视觉模态和文本模态下最终用户-物品嵌入,计算公式如下:
32、,
33、,
34、其中,和分别表示视觉模态和文本模态下的最终用户-物品嵌入,,,表示用户视觉模态的最终嵌入,表示物品视觉模态的最终嵌入,表示用户文本模态的最终嵌入,表示物品文本模态的最终嵌入;
35、b-4)通过拼接将多个模态的最终嵌入融合在一起,具体过程如下:
36、,
37、,
38、其中,表示物品两个模态的最终嵌入的融合,表示最终的用户表示。
39、步骤c)具体如下:
40、c-1)使用 k 近邻knn方法为物品的每个模态建立物品-物品相似图,计算物品的视觉模态嵌入与物品的视觉模态嵌入之间视觉模态的相似分数,以及物品的文本模态嵌入与物品的文本模态嵌入之间文本模态的相似分数,物品为物品的邻居,具体计算如下:
41、,
42、,
43、分别保留视觉模态和文本模态下相似度最高的前个邻居,具体计算如下:
44、,
45、,
46、其中,表示视觉模态下物品的前个邻居,表示文本模态下物品的前个邻居;
47、c-2)通过聚合多层物品的邻居物品信息来捕获视觉模态和文本模态下更深层次的语义关系和,具体计算如下:
48、,
49、,
50、其中,表示视觉模态下的语义关系,表示文本模态下的语义关系,表示物品的个邻居物品的集合;
51、c-3)通过注意力机制计算物品每个模态对推荐任务的贡献度,具体计算如下:
52、,
53、,
54、其中,表示注意力机制操作,通过一个多层感知机实现,表示视觉模态下的贡献度,表示文本模态下的贡献度;
55、再通过每个模态的语义信号增强物品嵌入,并生成综合考虑多模态信息的最终物品表示,具体计算如下:
56、。
57、步骤d)具体如下:
58、d-1)计算信息瓶颈对比学习损失去除模态噪音,通过信息瓶颈原则鼓励物品的嵌入矩阵和物品的最终嵌入之间存在差异,同时最大化与推荐任务相关的信息量,物品的嵌入矩阵包括物品视觉模态的嵌入矩阵和物品文本模态的嵌入矩阵,物品的最终嵌入包括物品视觉模态的最终嵌入和物品文本模态的最终嵌入,具体计算如下:
59、,
60、其中,表示基于贝叶斯个性化排序bpr的推荐损失,表示两个嵌入的互信息,表示视觉模态下的信息瓶颈对比学习损失,表示文本模态下的信息瓶颈对比学习损失;
61、视觉模态和文本模态下物品的嵌入矩阵和物品的最终嵌入之间的互信息,具体计算如下:
62、,
63、,
64、其中,表示度量两个向量之间的相似度,表示温度系数,物品为用户交互过的正样本,物品为用户未交互过的负样本,表示用户在视觉模态的嵌入矩阵,表示用户在文本模态的嵌入矩阵,根据步骤b-2)同理可得和;
65、d-2)通过对比学习方法来捕捉不同模态间的依赖,将用户视觉模态和文本模态下的最终嵌入映射到统一的特征空间得到映射后的用户视觉模态和文本模态下的嵌入,具体计算如下:
66、,
67、其中表示多层感知机mlp,表示映射后的用户视觉模态下的嵌入,表示映射后的用户文本模态下的嵌入,表示融合操作;
68、根据和计算用户的跨模态偏好,具体计算如下:
69、,
70、其中,表示取最大值操作。
71、步骤e)具体如下:
72、e-1)通过bpr损失优化参数,具体计算如下:
73、,
74、其中,表示bpr损失,表示用户交互过的正样本,表示用户未交互过的负样本;
75、e-2)将bpr损失、信息瓶颈对比学习损失和跨模态偏好对比学习损失结合,得到最终损失,具体计算如下:
76、,
77、其中,和表示平衡各项损失的两个不同的超参数;
78、e-3)通过adam优化器优化用户物品嵌入。
79、
技术实现要素:
中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案具有如下优点或有益效果:
80、本发明提出一种基于信息瓶颈原则的多模态推荐方法,该方法主要包括三个核心模块:模态特征图卷积编码器、注意力语义图卷积模块以及对比学习信息瓶颈模块;
81、首先,模态特征图卷积编码器模块通过用户-物品交互图,在每个模态中实现信息的有效传播与融合,从而生成用户和物品的多模态表征,通过这种方式,模型不仅能够捕捉用户与物品之间的直接交互关系,还能通过图结构揭示潜在的关系网络,增强推荐系统对用户偏好的理解和捕捉能力,进而实现用户与物品多模态特征的深度融合;
82、其次,注意力语义图卷积模块利用k-近邻方法构建物品-物品模态内容相似图,并在此基础上进行语义图卷积操作,通过这种自适应加权机制,模型能够根据具体任务的需求灵活调整各模态信息的权重,显著提升推荐系统的精度与鲁棒性;
83、最后,对比学习信息瓶颈模块通过信息瓶颈原则,致力于在保证下游推荐任务信息充分性的前提下,捕获最小化的充分模态信息,达到模态特征去噪的效果;该模块设计了一个对比学习损失函数,通过最大限度地压缩模态信息,在减少冗余与噪声的同时,提升推荐系统的整体性能,特别是在跨模态偏好的处理上,该方法通过最大化不同模态用户表征之间的互补性,促进了多模态信息的综合利用,从而不仅提高了推荐结果的准确性,还增强了系统在应对噪声数据时的稳健性;
84、综上所述,本发明所提出的基于信息瓶颈的多模态表征学习个性化推荐方法,通过巧妙融合图卷积、注意力机制与对比学习,有效提升了推荐系统的性能,具备较高的实际应用价值。
1.一种基于信息瓶颈原则的多模态推荐方法,其特征是,包括以下步骤:
2.根据权利要求1所述一种基于信息瓶颈原则的多模态推荐方法,其特征是,步骤a)具体如下:
3.根据权利要求2所述一种基于信息瓶颈原则的多模态推荐方法,其特征是,步骤b)具体如下:
4.根据权利要求3所述一种基于信息瓶颈原则的多模态推荐方法,其特征是,步骤c)具体如下:
5.根据权利要求4所述一种基于信息瓶颈原则的多模态推荐方法,其特征是,步骤d)具体如下:
6.根据权利要求5所述一种基于信息瓶颈原则的多模态推荐方法,其特征是,步骤e)具体如下:
