基于强化学习的自适应约束联邦学习方法、装置及系统

专利2026-02-15 3

本技术涉及联邦学习，尤其涉及基于强化学习的自适应约束联邦学习方法、装置及系统。

背景技术：

1、深度学习正越来越多地用于解决复杂问题，模型通常在公共或私人数据集上进行训练。这些数据集的质量对模型性能有着显著影响；公共数据集通常具有平衡的分布，而私人数据集可能在某些领域表现出色但缺乏全面覆盖。然而，由于隐私问题，个人更倾向于保留自己的数据，这可能导致数据分布不平衡，从而导致各个组织的模型性能不佳。联邦学习(federated learning,fl)通过整合来自多个来源的信息而不共享数据来解决这个问题。联邦学习涉及客户端在本地数据集上训练模型，然后在服务器上聚合这些模型，经过多轮迭代来增强模型性能。

2、计算优先网络(compute-first networking,cfn)的出现为联邦学习带来了新的活力。通过整合离散的计算资源，大规模的cfn系统为联邦学习任务提供了理想的环境，使其更加便捷。然而，无论是纯粹的联邦学习还是结合cfn的联邦学习都面临数据异质性的问题。各客户端的数据分布不同，使得全局模型难以有效收敛和泛化。此外，当各客户端的数据分类高度不平衡时，全局模型在本地训练后聚合时往往会遗忘其他客户端的有用信息。

3、目前，大部分联邦学习数据异质性的研究将模型分层分析，并采用正则化约束控制本地训练模型与全局模型之间的差异，防止因本地训练而导致的全局信息丢失。但该方式对模型施加了全局范围的约束和规定，对所有参与联邦训练的模型适用统一规则，忽略个别客户端的特殊情况。而另外的侧重于对模型进行固定或者约束的方式，虽然能够防止客户端模型因异质数据对模型性能产生不利影响，但分类器层因受数据影响而易发生改变，忽略了模型中可能蕴含的关于数据分布有用信息。

4、因此，当前亟需设计一种能够解决在联邦学习框架下，因客户端间数据异质性而导致模型性能下降问题的联邦学习方法。

技术实现思路

1、鉴于此，本技术实施例提供了基于强化学习的自适应约束联邦学习方法、装置及系统，以消除或改善现有技术中存在的一个或更多个缺陷。

2、本技术的一个方面提供了一种基于强化学习的自适应约束联邦学习方法，包括：

3、在预存储至本地经验池的前一轮次的元组样本中，提取前一轮次的全局模型权重和本地模型权重，并基于本地的强化学习代理单元，根据前一轮次的全局模型权重和本地模型权重确定作为当前轮次的动作的超参数；

4、采用本地训练集中的各个数据样本训练所述前一轮次的全局模型权重对应的本地模型，并在训练过程中基于所述超参数对所述本地模型进行自适应约束，以得到所述本地模型在当前轮次的本地模型权重，将该本地模型权重发送至联邦学习系统中的服务器，以使该服务器对当前轮次接收到的各个所述本地模型权重进行聚合以得到当前轮次的全局模型权重；

5、接收所述服务器发送的当前轮次的全局模型权重，基于本地的所述强化学习代理单元，根据前一轮次和当前轮次各自对应的全局模型权重和本地模型权重确定当前轮次的奖励；

6、根据前一轮次的全局模型权重和本地模型权重、当前轮次的所述动作、当前轮次的所述奖励以及当前轮次的全局模型权重和本地模型权重，构成当前轮次的元组样本并存储至所述本地经验池中。

7、在本技术的一些实施例中，所述在预存储至本地经验池的前一轮次的元组样本中，提取前一轮次的全局模型权重和本地模型权重之前，还包括：

8、构建本地经验池；

9、初始化强化学习代理单元对应的动作模型和评价模型；

10、将本地数据中的各个数据样本分别划分至训练集和验证集；

11、以及，接收联邦学习系统中的服务器发送的初始全局模型参数；

12、在初始轮次中，基于本地数据以及预设的初始超参数训练所述初始全局模型参数对应的本地模型，以得到初始轮次的本地模型权重，将该本地模型权重发送至联邦学习系统中的服务器，以使该服务器对初始轮次接收到的各个所述本地模型权重进行聚合以得到初始轮次的全局模型权重；

13、接收所述服务器发送的初始轮次的全局模型权重。

14、在本技术的一些实施例中，所述在预存储至本地经验池的前一轮次的元组样本中，提取前一轮次的全局模型权重和本地模型权重，并基于本地的强化学习代理单元，根据前一轮次的全局模型权重和本地模型权重确定作为当前轮次的动作的超参数，包括：

15、在本地经验池中查找是否包含有前一轮次的元组样本，若是，则自所述前一轮次的元组样本中提取作为前一轮次的状态的前一轮次的全局模型权重和本地模型权重；

16、基于所述强化学习代理单元中的动作模型，根据前一轮次的全局模型权重和本地模型权重对应生成作为当前轮次的动作的超参数。

17、在本技术的一些实施例中，所述基于本地的所述强化学习代理单元，根据前一轮次和当前轮次各自对应的全局模型权重和本地模型权重确定当前轮次的奖励，包括：

18、获取前一轮次和当前轮次各自对应的全局模型权重和本地模型权重各自在所述验证集上的准确率；

19、根据预设的权重变化参数，以及前一轮次和当前轮次各自对应的全局模型权重和本地模型权重各自在所述验证集上的准确率，确定当前轮次的奖励；其中，所述权重变化参数用于根据当前轮次对应的轮次值确定，不同轮次值分别对应不同的所述权重变化参数。

20、在本技术的一些实施例中，还包括：

21、若所述本地经验池中的所述元组样本的数量已到达预设的数量阈值，则在所述本地经验池中的除所述前一轮次的元组样本之外的其他元组样本中提取多个，并基于提取的各个所述元组样本训练所述强化学习代理单元。

22、在本技术的一些实施例中，还包括：

23、接收联邦学习系统中的服务器发送的相似客户端设备的索引，其中，所述服务器根据当前轮次接收到各个所述本地模型权重之间的相似度，为分别发送所述本地模型权重的各个客户端设备分别查找对应的相似客户端设备，并将各个所述客户端设备各自对应的相似客户端设备的唯一标识分别发送至各个所述客户端设备；

24、基于所述相似客户端设备的索引，自该相似客户端设备的经验池复制多个所述元组样本；

25、在基于自所述本地经验池提取的各个所述元组样本训练本地的所述强化学习代理单元之后，基于自所述相似客户端设备的经验池复制的各个所述元组样本训练本地的所述强化学习代理单元。

26、在本技术的一些实施例中，所述数据样本包括：图像数据样本；

27、所述本地模型权重包括：本地分类器头的权重；

28、所述全局模型权重包括：全局分类器头的权重。

29、本技术的另一个方面提供了一种基于强化学习的自适应约束联邦学习装置，包括：

30、强化学习动作确定模块，用于在预存储至本地经验池的前一轮次的元组样本中，提取前一轮次的全局模型权重和本地模型权重，并基于本地的强化学习代理单元，根据前一轮次的全局模型权重和本地模型权重确定作为当前轮次的动作的超参数；

31、自适应约束联邦学习模块，用于采用本地训练集中的各个数据样本训练所述前一轮次的全局模型权重对应的本地模型，并在训练过程中基于所述超参数对所述本地模型进行自适应约束，以得到所述本地模型在当前轮次的本地模型权重，将该本地模型权重发送至联邦学习系统中的服务器，以使该服务器对当前轮次接收到的各个所述本地模型权重进行聚合以得到当前轮次的全局模型权重；

32、强化学习奖励确定模块，用于接收所述服务器发送的当前轮次的全局模型权重，基于本地的所述强化学习代理单元，根据前一轮次和当前轮次各自对应的全局模型权重和本地模型权重确定当前轮次的奖励；

33、经验池存储模块，用于根据前一轮次的全局模型权重和本地模型权重、当前轮次的所述动作、当前轮次的所述奖励以及当前轮次的全局模型权重和本地模型权重，构成当前轮次的元组样本并存储至所述本地经验池中。

34、本技术的第三个方面提供了一种联邦学习系统，包括：服务器以及与该服务器之间通信连接的各个客户端设备；

35、各个所述客户端设备分别用于执行所述的基于强化学习的自适应约束联邦学习方法。

36、本技术的第四个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于强化学习的自适应约束联邦学习方法。

37、本技术的第五个方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的基于强化学习的自适应约束联邦学习方法。

38、本技术的第六个方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现所述的基于强化学习的自适应约束联邦学习方法。

39、本技术提供的基于强化学习的自适应约束联邦学习方法，在预存储至本地经验池的前一轮次的元组样本中，提取前一轮次的全局模型权重和本地模型权重，并基于本地的强化学习代理单元，根据前一轮次的全局模型权重和本地模型权重确定作为当前轮次的动作的超参数；采用本地训练集中的各个数据样本训练所述前一轮次的全局模型权重对应的本地模型，并在训练过程中基于所述超参数对所述本地模型进行自适应约束，以得到所述本地模型在当前轮次的本地模型权重，将该本地模型权重发送至联邦学习系统中的服务器，以使该服务器对当前轮次接收到的各个所述本地模型权重进行聚合以得到当前轮次的全局模型权重；接收所述服务器发送的当前轮次的全局模型权重，基于本地的所述强化学习代理单元，根据前一轮次和当前轮次各自对应的全局模型权重和本地模型权重确定当前轮次的奖励；根据前一轮次的全局模型权重和本地模型权重、当前轮次的所述动作、当前轮次的所述奖励以及当前轮次的全局模型权重和本地模型权重，构成当前轮次的元组样本并存储至所述本地经验池中，能够解决在联邦学习框架下，因客户端间数据异质性，导致各个客户端数据分布与测试域数据分布不一致导致模型性能下降的问题，能够自适应地调整每个客户端的本地模型与全局模型之间的关联度，以减轻数据异质性的影响，能够有效提高模型训练的可靠性及有效性，进而能够提高模型性能；同时，每个客户端都有本地的强化学习代理进行独立决策，使每个客户端都能充分自主地适应训练条件并做出决策，无需在服务器和客户端之间进行额外的数据通信，进而能够有效降低服务器和客户端之间的数据通信的资源消耗及时间成本。

40、本技术的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本技术的实践而获知。本技术的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

41、本领域技术人员将会理解的是，能够用本技术实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本技术能够实现的上述和其他目的。

技术特征：

1.一种基于强化学习的自适应约束联邦学习方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的自适应约束联邦学习方法，其特征在于，所述在预存储至本地经验池的前一轮次的元组样本中，提取前一轮次的全局模型权重和本地模型权重之前，还包括：

3.根据权利要求2所述的基于强化学习的自适应约束联邦学习方法，其特征在于，所述在预存储至本地经验池的前一轮次的元组样本中，提取前一轮次的全局模型权重和本地模型权重，并基于本地的强化学习代理单元，根据前一轮次的全局模型权重和本地模型权重确定作为当前轮次的动作的超参数，包括：

4.根据权利要求2所述的基于强化学习的自适应约束联邦学习方法，其特征在于，所述基于本地的所述强化学习代理单元，根据前一轮次和当前轮次各自对应的全局模型权重和本地模型权重确定当前轮次的奖励，包括：

5.根据权利要求1所述的基于强化学习的自适应约束联邦学习方法，其特征在于，还包括：

6.根据权利要求5所述的基于强化学习的自适应约束联邦学习方法，其特征在于，还包括：

7.根据权利要求1至6任一项所述的基于强化学习的自适应约束联邦学习方法，其特征在于，所述数据样本包括：图像数据样本；

8.一种基于强化学习的自适应约束联邦学习装置，其特征在于，包括：

9.一种联邦学习系统，其特征在于，包括：服务器以及与该服务器之间通信连接的各个客户端设备；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的基于强化学习的自适应约束联邦学习方法。

技术总结
本申请提供基于强化学习的自适应约束联邦学习方法、装置及系统，方法包括：基于本地的强化学习代理单元，根据前一轮次的全局模型权重和本地模型权重确定作为当前轮次的动作的超参数；在训练过程中基于超参数对本地模型进行自适应约束，将本轮的本地模型权重发送至联邦学习系统中的服务器进行聚合，基于强化学习代理单元，根据前一轮次和当前轮次各自对应的全局模型权重和本地模型权重确定当前轮次的奖励；构成当前轮次的元组样本并存储。本申请能够减轻数据异质性的影响，能够提高模型训练的可靠性、有效性以及训练得到的模型性能；通过本地的强化学习代理进行独立决策，无需在服务器和客户端之间进行额外的数据通信。

技术研发人员：李雅文,陈钧天,寇菲菲,李昂
受保护的技术使用者：北京邮电大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-29761.html