本发明涉及智能决策 ,尤其涉及一种多场景通用的决策方法和装置。
背景技术:
1、基于模型的强化学习方法在离线设置中显示出潜在的优势。在多场景离线强化学习中,需要利用多场景离线数据集学习出智能体能够适应不同环境的通用能力。然而,现有技术中的多场景离线强化学习方法的学习回报率较低。
技术实现思路
1、本发明提供一种多场景通用的决策方法和装置,用以解决使智能体适应不同环境的问题。
2、本发明提供一种多场景通用的决策方法,包括:获取当前时刻智能体的观测值和行动值;将所述观测值和所述行动值输入任务状态提示器模块,得到任务状态提示序列;将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值;其中,所述广义动力学模块为基于变换器的循环状态空间模型。
3、根据本发明提供的一种多场景通用的决策方法,所述将所述观测值和所述行动值输入任务状态提示器模块,得到任务状态提示序列之后,所述方法还包括:将所述任务状态提示序列和下一时刻的观测值输入奖励模块,得到当前奖励。
4、根据本发明提供的一种多场景通用的决策方法,所述广义动力学模块包括确定性状态模型、随机状态模型和观测解码模型。
5、根据本发明提供的一种多场景通用的决策方法,所述将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值,包括:将所述任务状态提示序列输入所述确定性状态模型,得到确定性状态;将所述确定性状态输入所述随机状态模型,得到随机性状态;将所述确定性状态和所述随机性状态输入所述观测解码模型,得到所述智能体的下一时刻的观测值。
6、本发明还提供一种多场景通用的决策装置,包括如下模块:获取模块和处理模块;所述获取模块,用于获取当前时刻智能体的观测值和行动值;所述处理模块,用于将所述观测值和所述行动值输入任务状态提示器模块,得到任务状态提示序列;将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值;其中,所述广义动力学模块为基于变换器的循环状态空间模型。
7、根据本发明提供的一种多场景通用的决策装置,所述处理模块,用于将所述任务状态提示序列和下一时刻的观测值输入奖励模块,得到当前奖励。
8、根据本发明提供的一种多场景通用的决策装置,所述广义动力学模块包括确定性状态模型、随机状态模型和观测解码模型。
9、根据本发明提供的一种多场景通用的决策装置,所述处理模块,用于将所述任务状态提示序列输入所述确定性状态模型,得到确定性状态;将所述确定性状态输入所述随机状态模型,得到随机性状态;将所述确定性状态和所述随机性状态输入所述观测解码模型,得到所述智能体的下一时刻的观测值。
10、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多场景通用的决策方法。
11、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多场景通用的决策方法。
12、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述多场景通用的决策方法。
13、本发明提供的多场景通用的决策方法和装置,可以获取当前时刻智能体的观测值和行动值;将所述观测值和所述行动值输入任务状态提示器模块,得到任务状态提示序列;将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值;其中,所述广义动力学模块为基于变换器的循环状态空间模型。通过该方案,可以将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值,由于广义动力学模块可以解决不同场景下动力学难以拟合的问题,因此可以提高多场景离线强化学习方法的学习回报率,从而实现决策方法的多场景通用需求。
1.一种多场景通用的决策方法,其特征在于,包括:
2.根据权利要求1所述的多场景通用的决策方法,其特征在于,所述将所述观测值和所述行动值输入任务状态提示器模块,得到任务状态提示序列之后,所述方法还包括:
3.根据权利要求1所述的多场景通用的决策方法,其特征在于,所述广义动力学模块包括确定性状态模型、随机状态模型和观测解码模型。
4.根据权利要求3所述的多场景通用的决策方法,其特征在于,所述将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值,包括:
5.一种多场景通用的决策装置,其特征在于,包括:获取模块和处理模块;
6.根据权利要求5所述的多场景通用的决策装置,其特征在于,所述处理模块,用于将所述任务状态提示序列和下一时刻的观测值输入奖励模块,得到当前奖励。
7.根据权利要求5所述的多场景通用的决策装置,其特征在于,所述广义动力学模块包括确定性状态模型、随机状态模型和观测解码模型。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述多场景通用的决策方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述多场景通用的决策方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述多场景通用的决策方法。
