本发明涉及计算机,尤其涉及一种世界模型扰动方法、装置、设备及存储介质。
背景技术:
1、世界模型是在人工智能和机器学习领域中用于描述和理解环境的方法。基于当前状态和过去的观测,世界模型可以预测未来的状态。通过模拟未来的可能状态,世界模型帮助智能体(如机器人或虚拟代理)做出更好的决策,使它们能够在内部模型中尝试不同的动作,并选择那些能够最大化奖励或达到目标的动作。
2、基于模型的强化学习是世界模型的一种具体应用,通过利用世界模型来加速智能体强化学习的过程。在这种方法中,智能体不仅通过与实际环境交互获得经验,还通过世界模型模拟未来的状态和结果,从而在这样一个虚拟的世界模型中进行大量的试验和错误。
3、由于训练数据有限以及训练数据无法覆盖所有可能的情况,世界模型也往往只能在一部分区域能够学习准确。在未训练的数据上,世界模型往往只能靠其泛化能力“猜测”。“猜测”数据我们称之为“分布外数据”。世界模型在分布外数据上的表现是没有保证的,很可能是错误的。因此在世界模型中通过强化学习得到的策略同样无法在分布外数据上进行准确决策。
技术实现思路
1、本发明提供了一种世界模型扰动世界模型扰动方法、装置、设备及存储介质,以世界模型输出扰动的方式,增加世界模型模拟数据的覆盖率,从而使得在世界模型中训练的强化学习策略能够具有对分布外数据的鲁棒性。
2、根据本发明的一方面,提供了一种世界模型的扰动方法。该方法包括:
3、获取当前执行任务的任务场景状态和任务执行动作;
4、将所述任务场景状态和所述任务执行动作,输入至预先训练获得的目标扰动模型中进行状态扰动预测,其中,所述目标扰动模型由相同模型维度的目标世界模型和随机残差模型集合组成,所述随机残差模型集合包括至少一个神经网络模型;
5、根据所述目标世界模型的输出,预测所述当前执行任务在下一时刻的目标任务场景状态。
6、根据本发明的另一方面,提供了一种世界模型扰动装置。该装置包括:
7、任务信息获取模块,用于获取当前执行任务的任务场景状态和任务执行动作;
8、任务状态扰动模块,用于将所述任务场景状态和所述任务执行动作,输入至预先训练获得的目标扰动模型中进行状态扰动预测,其中,所述目标扰动模型由相同模型维度的目标世界模型和随机残差模型集合组成,所述随机残差模型集合包括至少一个神经网络模型;
9、场景状态预测模块,用于根据所述目标世界模型的输出,预测所述当前执行任务在下一时刻的目标任务场景状态。
10、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
11、至少一个处理器;以及
12、与所述至少一个处理器通信连接的存储器;其中,
13、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的世界模型扰动方法。
14、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的世界模型扰动方法。
15、本发明实施例的技术方案,通过获取当前执行任务的任务场景状态和任务执行动作。将所述任务场景状态和所述任务执行动作,输入至预先训练获得的目标扰动模型中进行状态扰动预测,其中,所述目标扰动模型由相同模型维度的目标世界模型和随机残差模型集合组成,所述随机残差模型集合包括至少一个神经网络模型。根据所述目标世界模型的输出,预测所述当前执行任务在下一时刻的目标任务场景状态。通过在世界模型的参数空间内进行参数扰动实现提升世界模型模拟数据的覆盖性,使得智能体在世界模型中进行强化学习训练时能够见到大量的数据,提升其在分布外数据上的效果,并最终能够保证在真实物理环境中的效果。
16、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种世界模型的扰动方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述任务场景状态和所述任务执行动作,输入至预先训练获得的目标扰动模型中进行状态扰动预测,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述任务场景状态、所述任务执行动作和所述随机残差模型集合,确定增量任务场景状态,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标世界模型的输出,预测所述当前执行任务在下一时刻的目标任务场景状态,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标世界模型的输出,预测所述当前执行任务在下一时刻的目标任务场景状态,包括:
6.根据权利要求1所述的方法,其特征在于,所述目标世界模型的训练过程包括:
7.根据权利要求6所述的方法,其特征在于,所述预设训练模型至少包括回归模型、深度神经模型、生成对抗网络或变分自编码器中的一种。
8.一种世界模型扰动装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的世界模型扰动方法。