本发明属于移动机器人编队及避障,具体涉及一种基于多模信息融合的机器人自适应编队与避障控制方法及系统。
背景技术:
1、伴随人类社会的不断发展,人们对机器人的功能要求也越来越高,面对复杂的任务场景,单个机器人的局限性越来越明显。人们开始对多机器人的协同运动进行研究。多机器人协同系统常基于众多相对简易的机器人平台构建,这些平台个体间通过局部性的协作,共同实现整体协同行为,形成高效的群体系统。多机器人协同工作,可以在不明显提高单个机器人系统的复杂度的情况下,通过相互配合,适应更加复杂的环境,并且很好发挥个体优势,以良好的整体配合胜任更加复杂的任务。多机器人协同问题可以被划分为一致性问题、协同通信、编队问题、协调控制问题和合作决策。其中编队控制更是多机器人协同工作领域中广受关注的话题。编队控制指多个机器人在共同完成任务的运动过程中,既要保持编队成员间的几何队形约束,同时又要适应环境变化带来的制约,进行外部避障和内部避碰的控制问题。编队控制目的是引导一个智能体团队,以期望的队形借助周围智能体和环境信息到达目标位置的过程。
2、目前,主要有五种编队控制方法:基于行为法、虚拟结构法、分布式模型预测控制、基于图论法和领航跟随法。领航跟随法因为其结构简单、自主性强和高灵活度的可拓展性更适合未知环境。根据获得环境和相邻移动机器人信息的方式,将领航跟随编队控制方法分为基于全局信息的、基于视觉的以及基于多传感器融合的。基于全局信息的领航跟随编队控制方法具有较高的稳定性,能够实现可靠的编队管理,防止机器人之间的碰撞导致系统崩溃。尽管如此,此类方法在应用时必须构建一个能够完整表征全体编队结构的统一坐标框架,其中须包含各个单体移动机器人位置姿态的精确表述,以及增设必要的辅助锚点。这造成此类方法实现成本较高并且部署难度大,限制了其应用场景,缺乏灵活性。基于视觉的领航跟随编队控制能够脱离全局信息约束,具有主动获取领航者位姿信息、队形形成自主性强等优势。然而,现有的多机器人图像信息编队方法依赖额外添加的特殊标记实现队形保持与编队管理。这是由于在编队管理方面,编队成员通常具有相同的图像特征,跟随者很难完全基于视觉信息区分领航对象,需要依赖外加标签协助划分编队中的成员顺序。而在队形保持方面,通常需要标签数据实现跟随者对领航者的位姿感知,计算运动决策保持成员相对位置。而在编队保持方面,在复杂的未知实际环境中,障碍遮挡、环境噪声等因素会使得依赖外加标记的视觉编队方法很难保证编队稳定。编队成员间距不稳定则容易发生机间碰撞,从而导致整个编队系统崩溃。基于此,本方法将通过引入相机、激光雷达和超宽带传感器来对环境进行感知,并对感知内容进行融合,最后通过深度强化学习算法依靠融合内容实现在障碍物场景下的编队生成、编队避障和编队保持。
3、目前的编队避障方法主要分为基于传统编队避障方法和基于深度强化学习的避障方法。传统编队避障方法主要通过搭建全局定位平台,获取编队成员位置信息以此进行全局规划并估计编队成员状态进行避障控制。传统编队避障方法需要针对智能体的模型来设计控制率,并在避障运动中切换固定队形通过障碍物,这将导致在超出预先设计范围的复杂未知环境中编队避障效果会大打折扣。基于深度强化学习的编队避障方法是通过深度神经网络拟合对应的编队避障任务,能够缓解传统编队避障方法中任务难以建模的缺点。本方法不仅需要在静态障碍物条件下的任务执行过程中保持队形外,还要在动态障碍物环境下具有容错能力,因此采用基于深度强化学习的编队避障方法,以此保证编队系统的稳定性和鲁棒性。
技术实现思路
1、为了解决现有技术中存在的问题,本发明提供一种基于多模信息融合的机器人自适应编队与避障控制方法,提出了一种新的基于深度强化强化学习的算法框架与训练方式,利用多个网络分担拟合任务的压力,即由多个控制网络联合控制多移动机器人运动,旨在解决多移动机器人自适应编队及避障问题,具有鲁棒性高、可移植性强的特点。
2、为了实现上述目的,本发明采用的技术方案是:一种基于多模信息融合的机器人自适应编队与避障控制方法,包括以下步骤:
3、获取跟随者的图像、周围环境雷达数据以及距离数据;
4、构建并训练深度强化学习网络,包括编队控制网络和抗追踪网络,所述编队控制网络用于提取预处理后融合数据的特征,并根据融合数据的特征输出编队控制动作,抗追踪网络用于训练领航者的反跟踪能力;
5、基于训练后的深度强化学习网络提取预处理信息中移动机器人的运动特征、距离特征及动态障碍物时序特征,输出移动机器人可执行的最优编队运动决策;
6、根据移动机器人的最优编队运动决策,确定移动机器人的编队运动控制指令;
7、执行编队运动控制指令,控制移动机器人队形形成及编队避障。
8、进一步的,获取跟随者的图像、周围环境雷达数据以及距离数据包括:移动机器人机载摄像机获取跟随者的图像,对所述图像进行降维、压缩和堆叠处理;激光雷达获取周围环境雷达数据,对周围环境雷达数据进行定步长采样,获取设定数量的数据;对uwb传感器获取的距离数据进行中值滤波。
9、进一步的,融合后的数据作为编队控制网络和抗追踪网络的输入,编队控制网络分别输出移动机器人的运动方向aot和速度变化量avt,移动机器人执行动作后,收到新的状态信息和奖励信息。
10、进一步的,编队控制网络包括输入层、cnn层、lstm层、时间注意力层和输出层,lstm层负责处理时间序列数据的建模,将历史观测序列编码为固定长度的向量表示,时间注意力机制用于加权lstm输出序列中的不同时间步,对所述向量表示进行值函数估计和动作选择,通过反向传播算法进行优化,最大化累积奖励或最小化q值估计与目标q值之间的差异。
11、进一步的,训练编队控制网络和抗追踪网络包括:阶段1,随机初始化编队控制网络参数,对各个传感器获得的数据进行预处理并进行融合编码作为状态变量,用编队控制网络所得值函数为各动作进行评分,依据ε-greedy策略选择下一步动作并执行,进入新的状态,满足终止条件则完成此次训练否则继续执行,将(sf(t),a(t),r(t),sf(t+1))四元数存储到跟随者经验回放池中,当跟随者的经验回放池积累设定量的经验后,启动网络训练进行参数更新;
12、阶段2,以阶段1结束时的编队控制网络权重初始化抗追踪智能体,训练开始时领航者的经验回放池没有样本,当存放样本数超过设定量进行网络的训练,经验回放池存放(st,a2t,r2t,st+1),将其中st和st+1作为抗追踪网络的输入,计算q(st;ω)和q(st+1;ω)以及选择a2t所对应的q(st,a2t;ω),依据最大q值选择其所对应的动作,最后计算当前时刻的状态动作价值函数y2(t)和领航者智能体的损失函数loss2(ω),使用adma优化器优化网络参数;
13、阶段3,抗追踪网络与编队控制网络训练方法与其优化器不变,在训练场景中除了静态障碍物之外加入动态障碍物,动态障碍物的运行轨迹为正方形,正方形轨迹的中心为跟随者每回合训练的初始化位置,领航者的初始位置在矩形之外,跟随者每回合需避开动态障碍物才能抵达目标获得正奖励。
14、进一步的,网络训练进行参数更新包括:
15、从经验回放池中随机采样一组(sf(t),a1(t),r1(t),sf(t+1));
16、利用编队控制网络计算状态价值函数q(s(t);ω)和q(s(t+1);ω),并根据实际执行的动作计算出相应的动作价值函数值和;
17、基于最大价值动作策略,选择得分最高的动作,得到最大动作价值函数值maxa(t+1)q(s(t+1),a1(t+1);ω);
18、利用折扣因子γ和环境给出的即时奖赏,可以计算时刻的状态动作价值函数值y1(t),具体计算方式为:
19、
20、编队控制网络的损失函数loss1(ω)为:
21、loss1(ω)=e[(q((t),a1(t);ω)-y1(t))2]
22、采用adma优化器进行网络参数更新,在训练得分达到最大训练得分的80%时,领航跟随编队控制网络已初步具备在静态障碍物环境中发现并接近领航者的能力。
23、进一步的,移动机器人的运动特征包括移动机器人的轮廓特征、形状特征和位置变化特征;移动机器人的距离特征包括该移动机器人与前方所有移动机器人的距离特征;动态障碍物变化特征包括动态障碍物的轮廓特征和位置变化特征。
24、进一步的,编队控制网络输出状态动作价值函数,其对应的编队控制动作at为:ar,af,al;其中,ar,af,al代表的方向分别是向右转、直行、向左转,编队控制动作具体如下式:
25、at=[arafa3l]
26、采用动作选择策略,根据状态动作价值函数估计的动作评价选择编队控制动作的最优动作at。
27、第二方面,基于所述方法的构思,本发明还提供一种基于多模信息融合的机器人自适应编队与避障控制系统,包括:数据处理模块、特征提取模块、控制指令输出模块以及控制模块;数据处理模块用于对移动机器人获取的图像数据、雷达数据和距离数据进行预处理;特征提取模块,用于采用训练后的深度强化学习网络提取融合数据中移动机器人的运动特征、距离特征及动态障碍物变化特征,并输出移动机器人的最优编队运动决策;控制指令输出模块,用于根据移动机器人的最优编队运动决策,确定移动机器人的编队运动控制指令;控制模块,用于根据编队运动控制指令控制移动机器人队形形成及编队避障。
28、第三方面,本发明提供一种机器人编队,基于上述基于多模信息融合的机器人自适应编队与避障控制方法编队移动。
29、与现有技术相比,本发明至少具有以下有益效果:本发明公开了一种基于多模信息融合的机器人自适应编队与避障控制方法,实现了无全局数据与地图信息缺失条件下的机器人自适应编队与避障;采用视觉、激光雷达和uwb传感器分别获取视觉数据、雷达数据和距离数据,根据融合数据提取移动机器人的运动特征、距离特征及动态障碍物变化特征;根据移动机器人的感知结果,直接生成移动机器人的运动方向和运动速度等控制指令,实现在无全局信息环境下移动机器人编队及避障任务;该方法将基于深度强化学习的多控制网络协同控制与长短期记忆网络和注意力机制相结合,使移动机器人在不受人工干预的情况下,自主完成无全局信息环境下机器人自适应编队与避障任务,极大的提升了移动机器人的自主性和智能性。
1.一种基于多模信息融合的机器人自适应编队与避障控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多模信息融合的机器人自适应编队与避障控制方法,其特征在于,获取跟随者的图像、周围环境雷达数据以及距离数据,包括:移动机器人机载摄像机获取跟随者的图像,对所述图像进行降维、压缩和堆叠处理;激光雷达获取周围环境雷达数据,对周围环境雷达数据进行定步长采样,获取设定数量的数据;对uwb传感器获取的距离数据进行中值滤波。
3.根据权利要求1所述的基于多模信息融合的机器人自适应编队与避障控制方法,其特征在于,融合后的数据作为编队控制网络和抗追踪网络的输入,编队控制网络分别输出移动机器人的运动方向aot和速度变化量avt,移动机器人执行动作后,收到新的状态信息和奖励信息。
4.根据权利要求1所述的基于多模信息融合的机器人自适应编队与避障控制方法,其特征在于,编队控制网络包括输入层、cnn层、lstm层、时间注意力层和输出层,lstm层负责处理时间序列数据的建模,将历史观测序列编码为固定长度的向量表示,时间注意力机制用于加权lstm输出序列中的不同时间步,对所述向量表示进行值函数估计和动作选择,通过反向传播算法进行优化,最大化累积奖励或最小化q值估计与目标q值之间的差异。
5.根据权利要求1所述的基于多模信息融合的机器人自适应编队与避障控制方法,其特征在于,训练编队控制网络和抗追踪网络包括:阶段1,随机初始化编队控制网络参数,对各个传感器获得的数据进行预处理并进行融合编码作为状态变量,用编队控制网络所得值函数为各动作进行评分,依据ε-greedy策略选择下一步动作并执行,进入新的状态,满足终止条件则完成此次训练否则继续执行,将(sf(t),a(t),r(t),sf(t+1))四元数存储到跟随者经验回放池中,当跟随者的经验回放池积累设定量的经验后,启动网络训练进行参数更新;
6.根据权利要求1所述的基于多模信息融合的机器人自适应编队与避障控制方法,其特征在于,网络训练进行参数更新包括:
7.根据权利要求1所述的基于多模信息融合的机器人自适应编队与避障控制方法,其特征在于,移动机器人的运动特征包括移动机器人的轮廓特征、形状特征和位置变化特征;移动机器人的距离特征包括该移动机器人与前方所有移动机器人的距离特征;动态障碍物变化特征包括动态障碍物的轮廓特征和位置变化特征。
8.根据权利要求1所述的基于多模信息融合的机器人自适应编队与避障控制方法,其特征在于,编队控制网络输出状态动作价值函数,其对应的编队控制动作at为:ar,af,al;其中,ar,af,al代表的方向分别是向右转、直行、向左转,编队控制动作具体如下式:
9.一种基于多模信息融合的机器人自适应编队与避障控制系统,其特征在于,包括:数据处理模块、特征提取模块、控制指令输出模块以及控制模块;数据处理模块用于对移动机器人获取的图像数据、雷达数据和距离数据进行预处理;特征提取模块,用于采用训练后的深度强化学习网络提取融合数据中移动机器人的运动特征、距离特征及动态障碍物变化特征,并输出移动机器人的最优编队运动决策;控制指令输出模块,用于根据移动机器人的最优编队运动决策,确定移动机器人的编队运动控制指令;控制模块,用于根据编队运动控制指令控制移动机器人队形形成及编队避障。
10.一种机器人编队,其特征在于,基于权利要求1-8任一项所述基于多模信息融合的机器人自适应编队与避障控制方法编队移动。