一种基于优先级经验重放的强化学习智能决策方法

专利2025-04-21  24


本发明属于机器学习和强化学习领域,尤其涉及一种基于优先级经验重放的强化学习智能决策方法。


背景技术:

1、人工智能的主要目标之一,便是赋予智能体执行多样化复杂任务的能力。在当前机器学习领域,主流的研究方向往往聚焦于预先收集或精心构造的带有明确标签的数据集。这些静态数据为模型训练提供了基础,使得机器学习算法能够从中学习并识别出特定的模式或规律。然而,强化学习作为一种闭环学习范式的杰出代表,其方法论的独特之处在于能够利用动态生成的数据和实时的反馈标签来指导整个学习过程。通过与环境不断地进行交互,强化学习算法能够在试错中逐步优化自身的行为策略,实现自我提升和完善。

2、如今,强化学习已在众多顺序决策问题中取得了令人瞩目的成就。无论是棋盘游戏、视频游戏还是机器人的控制任务,强化学习都展现出了强大的解决问题的能力。然而,值得注意的是,传统强化学习方法在利用历史轨迹数据时,往往只是简单地将这些数据直接用于算法的训练过程,而忽视了这些数据背后所蕴含的潜在应用价值。

3、实际上,这些历史轨迹数据不仅记录了智能体在与环境交互过程中的行为表现,还蕴含了丰富的环境信息和智能体的学习状态。对这些数据进行深入挖掘和分析,不仅能够为强化学习算法提供更丰富的训练信号,还能够揭示智能体在解决任务过程中的决策机制和学习规律。因此,如何更有效地利用历史轨迹数据,将成为未来强化学习领域的一个重要研究方向。

4、强化学习在顺序列决策问题中取得了巨大的成功。虽然在线策略(on-policy)的方法是有效的,但使用历史经验会产生更好的样本利用率,这在样本难以获取的环境中十分重要,同时也能进一步节省资源。

5、经验重放实现了数据重用,并被广泛的应用于离线策略(off-policy)强化学习中。优先记忆回放机制(per)认为重放缓冲区中时间差分误差较大的样本更加重要,因为这部分的知识智能体掌握的程度较低。基于per,研究者们提出了各种各样的采样策略进行优先采样,例如优先级序列回放(pser),近期记忆增强(ere)等。另一方面,分布校正(discor)认为执行近似动态规划(adp)更新的数据分布直接影响学习到的解,需要将重放缓冲区重新加权为具有纠正性反馈的分布,因为强化学习的“自举”导致了q值的预估并不精确,从而导致了强化学习的学习缺乏纠正性反馈。但是这两种算法都只考虑了各自的因素,并没有将其结合起来。


技术实现思路

1、本发明以深度q网络(deep q-network)算法为基础,提出一种基于优先级经验重放的强化学习智能决策方法,解决现有强化学习对重放缓冲区中数据利用率低,算法性能提升较慢的问题。

2、本发明解决上述技术问题采用的技术方案是:

3、一种基于优先级经验重放的强化学习智能决策方法,包括训练过程和决策过程,具体包括以下步骤:

4、训练过程:

5、a1:模型初始化;模型包括目标策略网络和权重打分网络,通过随机设置的网络参数完成网络初始化,网络输入均为当前智能体所观测的状态信息,目标策略网络的输出为可执行的所有动作构成的状态-动作价值向量,策略打分网络的输出为当前样本的优先级权重值;具体的,目标策略网络由3个卷积层和3个全连接层组成,前3层为卷积层,后3层为全连接层;权重打分网络的网络层结构与目标策略网络相同。

6、a2:环境交互采集数据,智能体的目标策略网络会指导智能体与环境进行交互,具体包括以下步骤:

7、a21:获取环境信息;将环境的图像信息编码后获取,并进行预处理;

8、a22:将图像信息输入至目标策略网络,通过神经网络的前向传播,获得每个动作的执行的概率分布,这里所有动作的概率和为1;

9、a23:对获得的概率分布进行采样得到具体的实施动作,该动作即是智能体下一步需要执行的动作;

10、a24:智能体执行完当前动作a后,环境给予该动作的奖励反馈r,并状态s转移至下一个状态s’,转移后的状态即智能体下一次决策所进行输入的环境信息;

11、a3:使用权重打分网络设置交互数据(s,a,r,s’)的优先级权重并放入到重放缓冲区当中,具体步骤如下:

12、s31、样本数据;样本数据即一条智能体与环境进行交互后形成的四元组(s,a,r,s’)。

13、s32、数据计算;分别将样本数据中的环境状态信息s输入到权重打分网络中,前向传播得到样本的优先级权重。

14、s33、计算样本新的权重值,计算公式如下所示,其中w为权重打分网络输出的分数:

15、wlabel=0.9*w+0.1*r

16、s34、更新权重打分网络的参数,损失函数如下所示:

17、l(θ)=(wlabel-w)2

18、a4:当重放缓冲区存储一定的样本数据后,根据数据的优先级权重,从重放缓冲区中进行数据采样,以此进行目标策略网络的一轮训练;数据的优先级权重包括本次迭代时产生的交互数据的优先级权重和重放缓冲区中经过偏差修正的重要性权重;

19、a5:计算重要性权重;采用重要性权重进行偏差修正,计算方式如下:

20、

21、其中n表示重放缓冲区样本容量,β是一个超参数,用来控制纠正偏差的程度;其中wj为权重打分网络计算的原始权重,wi为修正后的权重;

22、a6:计算损失函数并更新目标策略网络参数,损失函数计算公式如下所示:

23、

24、其中d表示重放缓冲区,q表示目标策略网络,θ表示网络的参数集合,表示目标策略网络的参数,e表示求解在样本数据(s,a,s’,r)采样服从d的分布下的期望值;γ表示折扣系数;针对计算出来的损失值,利用梯度下降法对目标策略网络的网络参数进行参数更新,使损失函数延梯度下降方向逐步减小直至收敛;

25、a7:当所选择的训练数据被使用完毕后,如果设定的策略目标未完成,则回到步骤a2,继续进行上述步骤;如果策略的表现满足要求,则结束训练;

26、决策过程:

27、b1:智能体观察当前所处环境,获取图像信息;

28、b2:根据当前观测的图像信息和全局导航视图,对图像数据进行预处理;

29、b3:将状态s输入到训练好的模型中,得到可执行的所有动作对应的概率。

30、b4:对动作进行采样,得到智能体本次所执行的动作,同时智能体接受环境给出的奖励值并观察变化后的环境;

31、b5、重复s1至s4步骤,直至导航任务完成,智能决策结束。

32、与现有的技术相比,本发明的有益效果主要体现在以下几个方面:

33、首先,本发明通过优先级权重的引导,能够更精确地选择具有更高质量的样本,从而实现了强化学习决策模型的快速收敛;这一改进不仅显著提升了模型的训练效率,还大幅度提高了计算机处理速度,降低了训练所需的时间成本,为用户节省了宝贵的资源和时间。

34、其次,该方法不仅适用于特定的off-policy方法,而是具有广泛的普适性,可以应用于各种off-policy场景中。这一特性使得本发明在实际应用中更具灵活性和适用性,能够满足不同场景下的需求。

35、最后,本发明通过提高样本的利用率和算法的性能,有效地解决了强化学习策略收敛困难的问题。在算法性能上,本发明具有显著的优势,能够为用户带来更好的使用体验和更高的效率。

36、综上所述,本发明在强化学习领域具有显著的有益效果,不仅提高了模型的训练效率和样本利用率,还解决了强化学习策略收敛困难的问题,为相关领域的发展带来了新的突破。


技术特征:

1.一种基于优先级经验重放的强化学习智能决策方法,其特征在于,所述方法包括训练过程和决策过程,具体包括以下步骤:

2.根据权利要求1所述的一种基于优先级经验重放的强化学习智能决策方法,其特征在于,所述步骤a3的具体步骤如下:

3.根据权利要求1所述的一种基于优先级经验重放的强化学习智能决策方法,其特征在于,所述目标策略网络由3个卷积层和3个全连接层组成,前3层为卷积层,后3层为全连接层;权重打分网络的网络层结构与目标策略网络相同。

4.根据权利要求1所述的一种基于优先级经验重放的强化学习智能决策方法,其特征在于,所述步骤a4中,数据的优先级权重,包括本次迭代时产生的交互数据的优先级权重和重放缓冲区中经过偏差修正的重要性权重。


技术总结
本发明涉及机器学习和强化学习技术领域,公开了一种基于优先级经验重放的强化学习智能决策方法,针对现有强化学习中智能体在面对复杂环境时学习困难的问题,提出了一种基于权重打分网络的优先级经验重放方法,指导智能体对重放缓冲区中的数据进行优先级量化,从而更加高效地利用历史经验数据进行学习。在训练过程中,本发明方法根据训练数据计算综合损失函数,并利用梯度下降法对目标策略网络进行更新,以提高其决策性能。通过这种基于优先级经验重放的强化学习智能决策方法,本发明能够有效解决现有强化学习中智能体面对复杂环境学习困难的问题,提高智能体的决策效率和准确性。

技术研发人员:陈爱国,罗光春,付波,杨鑫涛,张一鸣,龙沛
受保护的技术使用者:电子科技大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23685.html