多模态数据融合方法、系统、可读存储介质及计算机设备

专利2025-06-21 40

本发明涉及模态数据融合，尤其涉及一种多模态数据融合方法、系统、可读存储介质及计算机设备。

背景技术：

1、物联网的迅猛发展大大的推动了以数据为中心的人工智能的发展。过去十年，联网设备数量的井喷式递增，比如可穿戴设备、传感器，无人机以及自主车辆的普及，使得收集到的数据变得愈来愈分散。联邦学习是一种允许多个参与方共同训练模型，同时保护各自数据隐私的分布式学习方法。由于其在性能数据安全和隐私等方面的优势，联邦学习被广泛应用于医疗健康、金融服务、智能设备及物联网、零售和电子商务等领域。目前大部分联邦学习的工作聚焦于单模态数据，并主要考虑数据的异构性对模型训练造成的影响。

2、然而，当前物联网设备收集的数据不再是单一模态，而是呈现多模态趋势，鉴于其结合了联邦学习和多模态数据处理的优点，多模态联邦学习越来越收到重视。但是当前所采用的多模态联邦学习只支持两种模态，仅仅支持处理文本和图像数据，导致其使用非常受限，基于此，如何解决多模态模型的高精度融合问题备受关注。

技术实现思路

1、本发明的目的在于提供一种多模态数据融合方法、系统、可读存储介质及计算机设备，旨在实现多模态、以及跨模态的联邦学习，以更好的捕捉不同模态之间的相关性信息，提高模型的性能和泛化能力，实现更全面的数据理解和应用。

2、第一方面，本发明提供一种多模态数据融合方法，所述方法包括：

3、获取与每种设备节点分别对应的模态数据，所述模态数据包括文本数据、图像数据、视频数据、音频数据，每种设备节点对应一种模态数据；

4、根据所述模态数据对每个设备节点上的初始本地模型进行梯度学习，以得到各个设备节点上的最终本地模型；

5、采用加权平均算法融合各个设备节点上的最终本地模型，得到初始融合模型，并对所述初始融合模型进行迭代收敛，得到最终融合模型。

6、进一步地，所述根据所述模态数据对每个设备节点上的初始本地模型进行梯度学习，以得到各个设备节点上的最终本地模型的步骤包括：

7、每个设备节点i上的初始本地模型执行τ次梯度下降过程，并采用γ为固定学习率，逐步学习到梯度模型具体如下：

8、

9、其中，x表示设备节点i的模态数据，y为与模态数据对应的标签，t表示设备节点的更新轮次，表示初始本地模型执行τ-1次梯度下降后的模型；

10、将每个设备节点将所学习的梯度模型分享给云服务器。

11、进一步地，所述采用加权平均算法融合各个设备节点上的最终本地模型，得到初始融合模型的步骤包括：

12、根据以下公式得到初始融合模型：

13、

14、其中，θ(t+1)表示初始融合模型，αi表示设备节点i上带标签的模态数据所占的权重，st表示云服务器收到的节点模型的集合；

15、所述对所述初始融合模型进行迭代收敛，得到最终融合模型的步骤包括：

16、根据以下公式进行迭代收敛：

17、

18、其中，ni表示设备节点i的数据量，n表示所有设备节点总的数据量,li(θi)表示设备节点i的损失函数，i表示所有参与计算的设备节点的集合。

19、进一步地，根据以下公式计算得到设备节点i上的模态数据所占的权重：

20、

21、其中，ei表示第i个设备节点的注意力向量；

22、根据以下公式计算得到第i个设备节点的注意力向量：

23、ei＝qi·ki

24、其中，qi表示第i个设备节点的查询向量，ki表示第i个设备节点的键向量。

25、进一步地，所述方法还包括：

26、根据以下公式计算得到设备节点i的损失函数：

27、

28、其中，βj表示设备节点j上不带标签的模态数据的权重，m表示带标签的模态数据总量，k表示不带标签的模态数据总量，λi和λj均表示模态的权重，ce(·)表示交叉熵损失函数，mce(·)表示均方损失误差函数，yi表示模态i的真实标签，yp表示模态i的预测标签。

29、进一步地，所述对所述初始融合模型进行迭代收敛，得到最终融合模型的步骤还包括：

30、使用计算得到的注意力权重对模型向量进行加权求和，得到加权后的表示：

31、

32、c表示加权后的模型，v＝{v1,v2,v3,…vn}，vi表示设备节点i上的模型向量。

33、第二方面，本发明提供一种多模态数据融合系统，所述系统包括：

34、模态数据获取模块，用于获取与每种设备节点分别对应的模态数据，所述模态数据包括文本数据、图像数据、视频数据、音频数据，每种设备节点对应一种模态数据；

35、梯度学习模块，用于根据所述模态数据对每个设备节点上的初始本地模型进行梯度学习，以得到各个设备节点上的最终本地模型；

36、加权融合模块，用于采用加权平均算法融合各个设备节点上的最终本地模型，得到初始融合模型，并对所述初始融合模型进行迭代收敛，得到最终融合模型。

37、第三方面，本发明提供一种可读存储介质，所述可读存储介质存储一个或多个程序，该程序被处理器执行时实现上述的多模态数据融合方法。

38、第四方面，本发明提供一种计算机设备，所述计算机设备包括存储器和处理器，其中：

39、所述存储器用于存放计算机程序；

40、所述处理器用于执行存储器上所存放的计算机程序时，实现上述的多模态数据融合方法。

41、与现有技术相比，本发明具有如下优点：

42、1.本发明通过深度神经网络抽取各模态数据的有效特征，并采用注意力机制，能够对不同模态的数据赋予不同的权重，从而有针对性的融合各个模态的数据，解决了传统方式只能对单一或者至多两种模态的数据进行融合而存在局限性的问题；此外，本发明提出的融合方法具有计算复杂度低，计算精度高等优点。

43、2.本发明为了提升多模型信息融合机制的鲁棒性，给出了适应于回归任务和分类任务的损失函数，为后续优化注意力机制参数和神经网络参数提供重要依据。

技术特征：

1.一种多模态数据融合方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多模态数据融合方法，其特征在于，所述根据所述模态数据对每个设备节点上的初始本地模型进行梯度学习，以得到各个设备节点上的最终本地模型的步骤包括：

3.根据权利要求2所述的多模态数据融合方法，其特征在于，所述采用加权平均算法融合各个设备节点上的最终本地模型，得到初始融合模型的步骤包括：

4.根据权利要求3所述的多模态数据融合方法，其特征在于，根据以下公式计算得到设备节点i上的模态数据所占的权重：

5.根据权利要求4所述的多模态数据融合方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的多模态数据融合方法，其特征在于，所述对所述初始融合模型进行迭代收敛，得到最终融合模型的步骤还包括：

7.一种多模态数据融合系统，其特征在于，所述系统包括：

8.一种可读存储介质，其特征在于，所述可读存储介质存储一个或多个程序，该程序被处理器执行时实现如权利要求1-6任一项所述的多模态数据融合方法。

9.一种计算机设备，所述计算机设备包括存储器和处理器，其中：

技术总结
本发明提供了一种多模态数据融合方法、系统、可读存储介质及计算机设备，该方法包括：获取与每种设备节点分别对应的模态数据，模态数据包括文本数据、图像数据、视频数据、音频数据，每种设备节点对应一种模态数据；根据模态数据对每个设备节点上的初始本地模型进行梯度学习，以得到各个设备节点上的最终本地模型；采用加权平均算法融合各个设备节点上的最终本地模型，得到初始融合模型，并对初始融合模型进行迭代收敛，得到最终融合模型。本发明能够实现多模态、以及跨模态的联邦学习，以更好的捕捉不同模态之间的相关性信息，提高模型的性能和泛化能力，实现更全面的数据理解和应用。

技术研发人员：乔成,刘园,田志宏,肖阳,赵搏文
受保护的技术使用者：广州大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-25583.html