一种多智能体强化学习方法、电子设备和存储介质

专利2026-05-14 6

本发明涉及强化学习领域，特别是涉及一种多智能体强化学习方法、电子设备和存储介质。

背景技术：

1、近年来，多智能体强化学习(marl)受到了广泛关注，并已应用于现实环境中，显示出巨大的潜力，如车队控制、时间表优化、资源管理和自动驾驶汽车。尽管在许多领域和应用中取得了前所未有的成功，但在多智能体强化学习环境中仍然存在许多挑战。

2、多智能体强化学习的一个主要挑战是由于部分可观察环境导致智能体(类似机器玩家)之间的协作问题。从个体的角度来看，每个智能体在学习时都在追求自己的最优策略，而不是整个团队的最优策略。然而，在涉及多个智能体的场景中，它们需要有效地协作以实现共同目标，而不是单独行动。这种协作性质要求智能体相互协调和通信，以便在复杂的环境中采取适当的行动。样本效率低下是marl的另一个主要挑战，导致即使对于相对简单的问题设置也需要数百万次交互，这对智能体的训练非常不利。随着智能体数量的增加，状态-行为空间呈指数增长，从而加剧了样本效率低下的问题。此外，每个智能体需要在不确定的环境中学习，并且可能存在多个局部最优解。利用有效探索，即如何有效地探索未知环境，收集最有利于政策学习的信息和经验，可以缓解样本低效，发现潜在的最优解，避免陷入次优解。

3、信用分配值分解方法已成为近年来解决协作多智能体任务的主要方法，在解决此类任务中起着至关重要的作用，并植根于集中训练和分散执行(ctde)范式。在ctde范式中，智能体可以在训练过程中共享信息和经验，从而更好地学习协作策略。具体来说，在训练过程中，智能体通过输入自己的观察及动作产生一个价值，所有的智能体产生的价值输入到混合网络中，产生所有智能体的集体价值，在训练时将会利用集体价值进行智能体网络的优化。在执行阶段，各个智能体可以基于学习到的策略(智能体网络)以分散独立的方式执行任务，以实现协作目标。通过信用分配价值分解方法，智能体可以更好地了解其他智能体对任务的贡献，使其能够调整策略以提高协作效率。

4、然而，信用分配产生的单一贡献不足以准确表征智能体在学习中的作用，如探索效应。考虑图1中的场景，其中两个智能体正在探索四个房间。最初，智能体a探索房间2，智能体b探索房间3，这是每个智能体的新状态，也是从全局角度来看的新状态。虽然鼓励探索这样的新状态，但是，在接下来的步骤中，智能体a和智能体b交换探索，智能体a现在探索房间3，智能体b探索房间2。从每个独立智能体的角度来看，他们确实访问了新的状态。然而，从全局的角度来看，这些状态已经被探索过了。这种交换并没有给整体的合作探索带来任何新的意义。应该鼓励智能体从全局角度去探索新的状态，比如智能体a访问房间1，智能体b访问房间4。在这种情况下，使用单一贡献方法，只能考虑智能体对团队奖励的贡献，而无法评估智能体在全局层面的探索贡献。因此，当前的技术方案中，智能体的价值、集体的价值产生都是通过外在刺激(环境给出的奖励)进行智能体网络的优化，而智能体探索作为一种使得算法迅速收敛的方式，无法通过环境给出的奖励进行量化。

技术实现思路

1、针对上述技术问题，本发明采用的技术方案为：

2、根据本发明第一方面，提供了一种多智能体强化学习方法，所述方法包括如下步骤：

3、s100，设置训练次数计算器c＝1。

4、s200，如果c≤c0，执行s300，否则，执行s900；c0为预设训练次数阈值。

5、s300，设置数据收集次数计算器n＝1。

6、s400，如果n≤n0，执行s500，否则，执行s800；n0为预设数据收集次数阈值。

7、s500，初始化多智能体环境，并设置时间步计算器p＝1。

8、s600，如果p≤p0，执行s700，否则，设置n＝n+1，执行s；p0为预设时间步阈值。

9、s700，将智能体当前观测的观测信息输入对应的演员网络中，得到对应的动作，并执行该动作得到对应的外在奖励、生命值以及全局状态信息，得到对应的五元组信息，作为历史数据存入当前的样本训练数据库中；如果所有智能体的生命值均为0，设置n＝n+1，执行s400，否则，设置p＝p+1，执行s600；所述五元组信息包括观测信息、动作、执行动作所得到的外在奖励、生命值以及全局状态信息。

10、s800，从当前的样本训练数据库中获取k个样本数据组作为当前的训练样本数据，并利用当前的训练样本数据对当前的多智能体强化学习网络模型进行训练，得到对应的当前输出结果；如果基于当前输出结果确定当前的多智能体强化学习网络模型满足收敛条件，执行s900，否则，基于当前输出结果更新当前的多智能体强化学习网络模型的参数，并设置c＝c+1，执行s200；所述多智能体强化学习网络包括演员网络、评论家网络、决斗随机网络蒸馏网络、第一注意力混合网络、第二注意力混合网络和目标价值获取模块；一个样本数据组对应一次数据收集得到的历史数据。

11、s900，将当前的多智能体强化学习网络模型作为目标多智能体强化学习网络模型。

12、其中，利用当前的训练样本数据对当前的多智能体强化学习网络模型进行训练，得到对应的当前输出结果，具体包括：

13、s801，将当前的训练样本数据中的第i个智能体对应的样本数据对应的观测信息oi和动作ui输入到对应的评论家网络中，得到对应的价值qi；i的取值为1到n，n为多智能体的数量。

14、s802，将所有智能体对应的价值、智能体特征信息和全局状态信息分别输入到第一注意力混合网络中，得到对应的所有智能体对应的第一集体价值q1tot，以及将所有样本数据对应的价值、智能体特征信息和全局状态信息分别输入到第二注意力混合网络中，得到对应的所有智能体对应的集体价值q2tot，以及将所有智能体对应的观测信息、动作以及全局状态信息输入到决斗随机网络蒸馏网络中，得到所有智能体对应的全局探索奖励值rtotin。

15、s803，将当前的训练样本数据对应的总外在奖励、q2tot和rtotin输入所述目标价值获取模块中，得到所有智能体对应的集体目标价值qtargettot，所述输出结果包括q1tot和qtargettot。

16、根据本发明第二方面，提供了一种电子设备，包括处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，用于执行本发明第一方面所述方法的步骤。

17、根据本发明第二方面，提供了一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质存储程序或指令，所述程序或指令使计算机用于执行本发明第一方面所述方法的步骤。

18、本发明至少具有以下有益效果：

19、本发明实施例提供的多智能体强化学习方法，使用注意力机制对智能体的局部观察和全局状态进行建模，以获得封装智能体全局动态关系信息的隐藏特征，使用残差结构将包含全局动态关系的观察表示与全局原始状态合并，然后，将其与各个动作连接起来，并同时将它们输入到固定网络和预测网络中进行预测，包括：对输入向量进行编码以更好地提取重要特征，采用两个特征提取器分别提取全局特征和局部特征以及使用解码器来整合全局和局部特征。最后，使用预测网络和固定网络生成的特征来计算均方误差，从而为每个智能体产生内在探索奖励，能够实现对智能体探索贡献进行量化，而不只是单纯的量化智能体价值贡献。

20、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种多智能体强化学习方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的多智能体强化学习方法，其特征在于，决斗随机网络蒸馏网络包括注意力模块、第一决斗探索奖励计算模块和第二决斗探索奖励计算模块；

3.根据权利要求2所述的方法，其特征在于，第一决斗探索奖励计算模块和第二决斗探索奖励计算模块的结构相同但网络参数不相同，均包括编码器、全局特征提取器、局部特征提取器和解码器；

4.根据权利要求1所述的方法，其特征在于，第一注意力混合网络和第二注意力混合网络的结构相同但网络参数不相同，均包括注意力模块和权重计算模块；

5.根据权利要求4所述的方法，其特征在于，qtargettot＝rex+βrtotin+γq2tot，β和γ均为超参数，rex为当前的训练样本数据对应的总外在奖励。

6.根据权利要求4所述的方法，其特征在于，为第一注意力混合网络的注意力模块的第u1个注意力头得到的注意力系数，u1的取值为1到h1，h1为第一注意力混合网络的注意力模块的注意力头的数量，wk1(aci)表示利用第一注意力混合网络的注意力模块将aci转换为键向量，wq1(est)表示利用第一注意力混合网络的注意力模块将st的嵌入向量est转换为查询向量，·表示点乘；softmax()表示归一化操作；×表示叉乘；

7.一种电子设备，其特征在于，包括处理器和存储器；

8.一种非瞬时性计算机可读存储介质，其特征在于，所述非瞬时性计算机可读存储介质用于存储程序或指令，所述程序或指令使计算机执行如权利要求1至6任一项所述方法的步骤。

技术总结
本发明提供了一种多智能体强化学习方法、电子设备和存储介质，包括：智能体通过输入自己的观察，通过自身演员网络产生动作，然后将动作输入到自身评论家网络产生一个独立于智能体的价值，所有的智能体产生的价值联合每个智能体的自身特征输入到注意力混合网络中，产生所有智能体的集体价值。同时，也会将动作和观测以及全局状态输入到决斗随机网络蒸馏网络中产生每个智能体的探索贡献，用奖励值量化。产生的奖励值输入到另一个注意力混合网络中，产生集体目标价值，通过最小化集体价值与集体目标价值的值来优化每个智能体网络。本发明能够实现对智能体探索贡献进行量化，而不只是单纯的量化智能体价值贡献。

技术研发人员：李维康,周辉,张杰,卢敏
受保护的技术使用者：中国民航大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-31110.html