一种基于内在奖励的强化学习模型训练方法

专利2025-07-06  9


本发明涉及机器学习,具体为一种基于内在奖励的强化学习模型训练方法。


背景技术:

1、强化学习作为机器学习的三大范式之一,旨在让智能体通过与环境的交互学习如何采取最优行动来实现特定目标。在强化学习中,智能体通过尝试不同的行动,并从环境中接收反馈信息例如奖励或惩罚来逐步优化其决策策略。其独特之处在于,智能体不需要明确的标记样本,而是通过试错来自主学习并做出更好的决策。这使得强化学习在许多复杂的任务和领域中都表现出色,例如自动驾驶、游戏策略优化和机器人控制等。

2、然而,现有强化学习方法主要依靠外在奖励进行训练,存在如下问题:模型收敛的一般条件是无限次地访问所有可能的“状态-动作”对,而现有算法会在有限次迭代后陷入局部最优解并无法进一步改进;大部分真实世界场景中,任务的奖励空间是十分稀疏的,无法为智能体提供稳定的奖励流,使得智能体难以探索到有价值的状态,导致模型训练完全失败;仅依靠任务奖励训练得到的模型泛化能力较差,在面对新的、稍微不同的环境时无法做出合理的决策。

3、内在奖励是指在学习过程中由智能体自身生成的奖励信号,而不是来自外部环境的奖励信号,其与人类的“好奇心”等高度相似。通过使用内在奖励,智能体可以在没有明确外部奖励信号的情况下自主地进行探索,并且更容易发现有价值的行为和策略。内在奖励在某种程度上可以看作是智能体自身的动力,帮助其更好地学习和适应复杂的任务环境。然而,内在奖励的使用存在“目标偏离”问题,即对混合奖励的优化不能保证最优策略(仅针对任务奖励)的不变性。并且,特定内在奖励方法对于在不同任务场景中的性能偏差极大,欠缺行之有效的选择方法。

4、中国专利cn116147627a,公开了一种结合深度强化学习和内在动机的移动机器人自主导航方法,利用视觉传感器从环境中获取信息,使用d3qn算法来进行最优动作的选择,并且针对导航环境中存在的奖励稀疏的问题,引入了基于好奇心的内在动机模块,利用预测状态特征向量和实际状态特性向量之间的差异作为好奇心,使得机器人能够在奖励稀疏的情况下仍保持较高的探索效率。然而,本专利限制了使用某种固定的内在奖励方法,具有局限性。


技术实现思路

1、本发明所要解决的技术问题是针对现有技术的现状,而提供一种基于内在奖励的强化学习模型训练方法,通过设置奖励池引入多种不同内在奖励函数,并根据任务和学习进程的不同自动选择最优的内在奖励函数,从而针对不同任务自动选择最优的内在奖励方法,最大化提高智能体的探索能力和采样效率,实现模型训练加速并保证最优策略的不变性。

2、本发明解决上述技术问题所采用的技术方案为:一种基于内在奖励的强化学习模型训练方法,其特征在于,包括步骤:

3、s1、根据学习模型任务获取初始化策略网络、初始化价值网络、初始化内在奖励池及用于存储任务回报的队列;

4、s2、通过置信区间上界算法由内在奖励池中获取当前回合的内在奖励函数,所述置信区间上界算法表达式如下:

5、

6、式中,it为当前回合的内在奖励函数,i为内在奖励,为内在奖励函数的集合,qt(i)为对内在奖励函数的价值估计,c为控制探索程度的常数,t为时间,nt(i)为在时间t之前内在奖励被选择的次数;

7、s3、通过策略采样t步获取集合并通过内在奖励函数计算所述集合中每一个四元组(st,at,et,st+1)的内在奖励,根据所述每一个四元组中的当前状态st进行任务回报与优势估计操作处理;

8、s4、通过梯度下降算法获取更新后的策略网络与价值网络,并通过当前回合任务回报估计的平均值获取内在奖励函数的价值估计,所述内在奖励函数的价值估计表达式如下:

9、

10、式中,w为队列长度,e为外在奖励,为价值网络对任务回报的预测结果,为单个回合中所有状态st任务回报估计的平均值,φ为价值网络的参数;

11、s5、根据设定训练步数进行判断,若是当前回合为最后一步时,则结束训练,若否,则返回s2步骤。

12、进一步地,所述s2步骤中,通过所述当前回合的内在奖励函数对外在奖励进行最大化处理,以获取外在奖励最高值。

13、进一步地,通过所述进行最大化处理的当前回合的内在奖励函数获取设定步数回合内全部状态st对应的内在奖励,所述对应的内在奖励通过所述外在奖励进行加权相加操作,所述加权相加表达式如下:

14、

15、式中,je+i(θ)为总奖励,θ为策略网络,为数学期望,γt为折扣因子,βt为权重系数且βt=β0(1-κ)t,κ为衰减率,et为外在奖励。

16、进一步地,所述四元组(st,at,et,st+1)中,at为动作,st+1为下一状态,通过智能体传输当前状态st至策略网络与价值网络,通过所述策略网络输出所述动作at并进行优势估计,通过所述价值网络对外在回报进行估计。

17、进一步地,所述设定训练步数为智能体与环境交互的设定步数。

18、与现有技术相比,本发明至少含有以下有益效果:

19、(1)本发明所述的一种基于内在奖励的强化学习模型训练方法,提供一种通用、高效的内在奖励使用方法,针对不同任务自动选择最优的内在奖励方法,实现模型训练加速并保证最优策略的不变性;

20、(2)通过算法的优化目标,使整个模型训练更加便捷。



技术特征:

1.一种基于内在奖励的强化学习模型训练方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种基于内在奖励的强化学习模型训练方法,其特征在于,所述s2步骤中,通过所述当前回合的内在奖励函数对外在奖励进行最大化处理,以获取外在奖励最高值。

3.根据权利要求2所述的一种基于内在奖励的强化学习模型训练方法,其特征在于,通过所述进行最大化处理的当前回合的内在奖励函数获取设定步数回合内全部状态st对应的内在奖励,所述对应的内在奖励通过所述外在奖励进行加权相加操作,所述加权相加表达式如下:

4.根据权利要求1所述的一种基于内在奖励的强化学习模型训练方法,其特征在于,所述四元组(st,at,et,st+1)中,at为动作,st+1为下一状态,通过智能体传输当前状态st至策略网络与价值网络,通过所述策略网络输出所述动作at并进行优势估计,通过所述价值网络对外在回报进行估计。

5.根据权利要求1所述的一种基于内在奖励的强化学习模型训练方法,其特征在于,所述设定训练步数为智能体与环境交互的设定步数。


技术总结
本发明公开了一种基于内在奖励的强化学习模型训练方法,具体涉及机器学习技术领域,通过设置奖励池引入多种不同内在奖励函数,并根据任务和学习进程的不同自动选择最优的内在奖励函数,从而最大化提高智能体的探索能力和采样效率,并且保证最优策略的无偏性。基于MiniGrid环境的多种任务对提出的模型算法进行了验证,实验结果表明该算法能够有效解决奖励稀疏及探索困难任务,显著提升模型训练速度。本发明解决了现有内在奖励方法使用中存在的目标偏差问题和任务适配问题,使得内在奖励方法的应用更加通用、灵活、高效。

技术研发人员:金鑫,袁明奇,曾文军
受保护的技术使用者:宁波东方理工大学(暂名)
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-25911.html