本发明涉及机器人区域探索,尤其涉及一种多机器人协同区域探索智能决策方法以及装置。
背景技术:
1、目前国内外对未知环境下机器人的自主探索已经有了广泛的研究。按机器人数量可以分为单机器人和多机器人两大类;按研究方法可以分为传统方法和基于深度学习的方法两大类。在环境探索任务中,机器人对环境的先验知识极其有限,因此为完成任务必须执行高效和稳健的探索策略。在该领域的研究中,研究者们最关注的重点是如何找到最佳策略以使机器人的探索性能最优,使得探索的总时间最少、路径最短。
2、需要注意的是,目前在机器人区域探索中存在以下缺陷:
3、(1)大量现有技术针对单机器人环境探索,而非多机器人协同环境探索。若将但单机器人环境探索方法直接应用到多机器人场景中,机器人之间不存在通信、交互、协作,会造成大量能量、算力等资源的浪费。
4、(2)现有针对多机器人协同环境探索的工作,往往要求机器人之间、机器人与环境具有较强通信能力。而事实上,待探索的环境往往是通信条件较弱的环境(例如矿井、战场、外星球等),无法要求机器人具备强通信能力,因此机器人最好分布式地决策。
技术实现思路
1、第一方面,本发明实施例提供了一种多机器人协同区域探索智能决策方法,该方法包括:
2、将对待探索区域的探索视为建立待探索区域的二维代价地图,为多机器人环境探索决策过程设置变权重代价函数,机器人通过对其中的权重项进行动态计算来决策环境探索过程中下一步的目标点;
3、以各机器人为智能体,将多机器人环境探索决策过程建模为多智能体部分可观测马尔可夫决策过程模型;
4、利用多智能体强化学习中心化训练分布式执行的多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,maddpg)架构,让智能体不断与环境进行交互,并将变迁视为经验存储到经验池中,在此期间,基于maddpg架构训练智能体的价值网络和策略网络中的各项参数;
5、在参数固化后,基于策略网络对智能体的变权重代价函数中的各权重项进行决策,从而选择最优前沿点作为环境探索过程中下一步的目标点,并基于此进行探索。
6、在第一方面的一些可实现方式中,多智能体部分可观测马尔可夫决策过程模型的状态空间包括三个层次,分别为全局地图、智能体坐标与前沿点坐标。
7、在第一方面的一些可实现方式中,多智能体部分可观测马尔可夫决策过程模型的观测空间由智能体的本地局部地图、当前时刻智能体自身坐标与智能体自身观测到的前沿点坐标构成。
8、在第一方面的一些可实现方式中,多智能体部分可观测马尔可夫决策过程模型的动作空间由变权重代价函数中的距离项与信息增益项的权重项构成。
9、在第一方面的一些可实现方式中,价值网络和策略网络为rnn结构,并使用relu函数作为激活函数。
10、第二方面,本发明实施例提供了一种多机器人协同区域探索智能决策装置,该装置包括:
11、设置模块,用于将对待探索区域的探索视为建立待探索区域的二维代价地图,为多机器人环境探索决策过程设置变权重代价函数,机器人通过对其中的权重项进行动态计算来决策环境探索过程中下一步的目标点;
12、建模模块,用于以各机器人为智能体,将多机器人环境探索决策过程建模为多智能体部分可观测马尔可夫决策过程模型;
13、训练模块,用于利用多智能体强化学习中心化训练分布式执行的maddpg架构,让智能体不断与环境进行交互,并将变迁视为经验存储到经验池中,在此期间,基于maddpg架构训练智能体的价值网络和策略网络中的各项参数;
14、决策模块,用于在参数固化后,基于策略网络对智能体的变权重代价函数中的各权重项进行决策,从而选择最优前沿点作为环境探索过程中下一步的目标点,并基于此进行探索。
15、第三方面,本发明实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
16、第四方面,本发明实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如上所述的方法。
17、根据本发明的实施例,至少实现了以下技术效果:
18、基于针对多机器人的协同前沿点决策问题,提出了基于多智能体强化学习中maddpg架构以及变权重代价函数的多机器人协同区域探索智能决策方法,该方法使用集中式训练-分布式执行架构,使得智能体以分布式地方式进行协同决策。实验表明,相较传统代价函数方法及独立ddpg方法,本发明提出的方法在多机协同覆盖的总路径长度、覆盖重复率等评价指标上效果更佳。例如,相较独立ddpg方法,降低了覆盖过程中10.37%的总路径长度,降低了31.50%的覆盖重复率。与现有技术相比,本发明具有探索效率高、路径长度短等优点。
19、应当理解,
技术实现要素:
部分中所描述的内容并非旨在限定本发明实施例的关键或重要特征,亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
1.一种多机器人协同区域探索智能决策方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述多智能体部分可观测马尔可夫决策过程模型的状态空间包括三个层次,分别为全局地图、智能体坐标与前沿点坐标。
3.根据权利要求1所述的方法,其特征在于,所述多智能体部分可观测马尔可夫决策过程模型的观测空间由智能体的本地局部地图、当前时刻智能体自身坐标与智能体自身观测到的前沿点坐标构成。
4.根据权利要求1所述的方法,其特征在于,所述多智能体部分可观测马尔可夫决策过程模型的动作空间由变权重代价函数中的距离项与信息增益项的权重项构成。
5.根据权利要求1所述的方法,其特征在于,所述价值网络和所述策略网络为rnn结构,并使用relu函数作为激活函数。
6.一种多机器人协同区域探索智能决策装置,其特征在于,所述装置包括:
7.一种电子设备,其特征在于,所述电子设备包括:
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-5中任一项所述的方法。