本发明涉及空间机器人遥操作技术,特别是涉及一种基于深度强化学习的遥操作空间机械臂轨迹规划方法。
背景技术:
1、借助遥操作技术,空间机器人大大提高了宇航员的操作能力,在轨道服务任务中发挥着越来越重要的作用,包括捕获、加油、修复卫星、清除轨道碎片以及组装和维护大型空间基础设施等任务。目前常用的遥操作控制方法包括远程编程控制、双边控制和虚拟预测控制。远程编程控制以监督模式运行,空间机器人接收主端发出的操作指令,并在从端与环境互动,形成一个闭环系统。然而,这种方法依赖于空间机器人的智能水平。双边控制和虚拟预测控制都属于直接控制的范畴。双边控制直接接收来自远程环境的力反馈信息,适用于延迟较小的情况。借助适当的控制算法,如被动控制、鲁棒控制和冲击控制,主端操作员与从端机器人之间的力和位置信息保持一致。相比之下,虚拟预测控制在主端建立了一个与从端环境相似的虚拟模型,决策时主端同时参考来自从虚拟模型和从端的反馈信息,从而减轻大延迟对系统稳定性和运行特性的影响。然而,基于模型的方法对于模型的精度要求高,所以需要深厚的领域专业知识来设计复杂控制器。并且,空间机器人是一个复杂的动态系统,其底座和机械臂之间的动力学耦合、摩擦以及关节柔性等特性带来的非线性,给建模带来了巨大挑战。此外,即使是基于物理模型对原始系统进行建模,许多关键的动力学参数难以获取或者得到其准确值。这些因素会对模型产生重大影响,进而影响控制器的性能。
2、数据驱动的无模型深度强化学习(deep reinforcement learning,drl)已在游戏、工业控制和大型语言模型等多个领域展现出显著前景。这种方法也被学者们广泛应用于空间机器人领域,主要集中在机械臂的轨迹规划上。虽然之前的研究已经证明了drl在空间机器人技术方面的潜力,但这些研究通常假定远程机器人具有高度智能,能自主实现和完成指定任务。从目前的技术水平来看,这样的假设是不现实的。在实践中,大部分智能都体现在主端,由于主从端之间存在的通信延迟和带宽有限的客观问题,给基于drl的控制带来了巨大挑战。
3、现有的解决强化学习中延迟问题的方法主要分为三大类:状态增强法、模型预测法和其他方法。状态增强方法主要是根据由最新观察到的延迟状态和行动序列组成的信息状态,将原来的延迟马尔可夫决策过程转化为新的无延迟马尔可夫决策过程。从理论的角度分析,当延迟增大时,信息状态的状态空间会呈指数级增长。因而智能体需要指数级增长的样本数来更新网络参数,从而来优化策略网络。这样不仅对计算资源提出了更高的要求,同时策略的收敛也会变得缓慢,极端情况下,策略甚至会发散;从实际操作的角度出发,在基于状态增强方法设计策略网络时,由于深度神经网络的特性,其输入端只能是一个确定值。当环境出现随机延迟时,跟延迟对应的信息状态并不能适应这个输入的大小已经确定的网络。通常会设计一个最大延迟对应信息状态的策略网络来解决随机延迟问题,但是这样设计给于未达到最大延迟的信息状态引入了冗余信息,进而干扰了决策。
4、模型预测方法一般包括两个步骤:预测延迟导致的未知状态,然后根据预测状态和标准强化学习算法做出最终决策。准确模拟环境动态至关重要,其早期以确定性映射和随机森林等方法实现,后期也分别利用循环神经网络、前馈模型和粒子集成方法来学习转换。预测延迟导致的未知状态首先需要构建一个前向动力学模型。基于数据驱动的方法在数据分布平稳时,需要大量的数据才能较为真实地刻画环境;当数据分布不平稳时,基于有限数据得到的前向动力学模型只能反映一部分环境的情况。另外,假定在拥有一个较为准确的前向动力学模型的情况下,通过最新观察到的延迟状态和动作序列来预测的延迟状态,其推理时间与延迟的大小呈正相关,并且其与真实状态之间的误差随延迟增大显著增加。这些都会对最终的决策造成较大的影响。
5、需要说明的是,在上述背景技术部分公开的信息仅用于对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本发明的主要目的在于解决上述背景技术中存在的问题,提供一种基于深度强化学习的遥操作空间机械臂轨迹规划方法。
2、为实现上述目的,本发明采用以下技术方案:
3、一种基于深度强化学习(drl)的遥操作空间机械臂轨迹规划方法,该方法包括以下步骤:
4、s1:建立刚性机械臂的漂浮基座空间机器人的刚体运动学模型,包括定义机械臂的关节角度向量和速度向量,以及基座和机械臂的雅克比矩阵,同时定义强化学习六元素元组,包括状态、动作、状态转移函数、奖励函数、初始状态分布和折扣因子,为机械臂的轨迹规划提供运动学参数和强化学习框架,所述强化学习框架用于智能体与环境交互的决策过程;
5、s2:构建遥操作的总体框架,包括主端、数据链和从端,其中数据链进行数据的传输和处理,从端执行空间机械臂与环境的交互命令并返回状态信息和奖励,主端进行对机械臂操作的实时控制和决策;
6、s3:根据数据链传输的状态信息,主端的延迟处理dip模块对主端当前状态进行处理,获得去除主从端之间通信延迟影响的当前状态以及前序奖励;
7、s4:在去除延迟影响后的状态基础上,主端的drl决策模块根据已有的经验回放池、动作回放池以及当前延迟量不断更新智能体,并通过智能体与环境交互获得新的状态,指导机械臂进行轨迹规划;
8、s5:通过延时处理模块去除从端数据经数据链的延迟影响,利用去除影响的数据更新智能体并与环境交互,逐步指导从端机械臂完成规划任务,其中智能体根据去除延迟影响的状态和策略网络生成相应的动作,从端空间机械臂根据动作与环境交互,生成下一个状态和奖励,然后反馈给主端,主端根据新的状态和奖励更新智能体。
9、在一些实施例中,进一步地,本发明通过映射方法、预测方法和状态增强方法中的一种或多种对主端当前状态进行处理;其中,所述映射方法采用无记忆策略,忽略延迟,并将最近观察到的状态作为环境的真实状态进行决策;所述预测方法采用历史轨迹数据训练前向模型;所述状态增强方法通过构造一个由延迟状态信息和历史动作序列组成的信息状态,将延迟马尔科夫决策过程转化为无延迟马尔科夫决策过程。
10、一种计算机程序产品,包括计算机程序,所述计算机程序由处理器执行时实现所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法。
11、本发明具有如下有益效果:
12、本发明的方法将深度强化学习集成到传统的遥控框架中,解决了遥控空间机械臂轨迹规划这一复杂难题。在本发明中,通过延迟处理模块,利用延迟状态信息和历史行动,增强智能体的决策能力,确保其在固有延迟环境中的恢复能力。延迟信息处理模块通过同时考虑当前延迟状态和历史行动结果,生成有助于当前决策的状态。延迟信息处理完成后,决策模块根据获得的新状态生成相应的动作。进一步地,本发明实施例设计了映射、预测和状态增强三种创新方法构建延迟处理模块。
13、本发明在遥操作场景下应用drl有效解决了空间机械机械臂的轨迹规划问题。与现有技术相比,本发明的主要优势体现在如下方面:
14、1)本发明首次将深度强化学习集成到传统的遥控框架中,完成相应的轨迹规划任务;
15、2)本发明利用延迟状态信息和历史动作缓冲增强了决策能力;
16、3)本发明在增强智能体决策能力的同时,确保了算法在以固有延迟为特征的环境中的适应性;
17、4)本发明提出的方法针对与基座是否漂浮以及目标是否旋转组成的多种场景均具有有效性;
18、5)本发明提出的方法在不同噪声或动力学参数条件下均具有较强鲁棒性,无需进行参数调整。
19、本发明实施例中的其他有益效果将在下文中进一步述及。
1.一种基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,步骤s1中,建立刚性机械臂的漂浮基座空间机器人的刚体运动学模型具体包括:
3.如权利要求1或2所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,步骤s1中,定义强化学习六元素元组具体包括:
4.如权利要求3所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,所述奖励函数包括:奖励末端执行器与目标点距离缩小的机制,以促使智能体执行使末端执行器向目标点移动的动作;当末端执行器接近目标点时,奖励其在目标附近徘徊的行为,以确保持续向目标前进;奖励智能体平滑机械臂的运动,减少基座和末端执行器的速度波动,以优化轨迹的平滑性;终局奖励机制,当末端执行器与目标点的距离小于或等于预设阈值时激活,其值与任务完成时剩余的步骤数成正比,以激励智能体高效完成任务;通过奖励函数的综合评估,智能体学习在不同的操作阶段采取合适的动作,包括接近目标、精细调整和任务完成,以实现整个遥操作过程的优化。
5.如权利要求1至4任一项所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,步骤s2中构建遥操作的总体框架具体包括:
6.如权利要求1至5任一项所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,步骤s3中,通过映射方法、预测方法和状态增强方法中的一种或多种对主端当前状态进行处理;
7.如权利要求6所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,步骤s3中,所述映射方法具体包括:采用无记忆策略处理主端的观测状态,忽略由于通信延迟导致的延迟影响;将最新观察到的状态作为当前时刻环境的真实状态,用于智能体的决策过程;当主端观测到的状态与预期状态不一致时,识别并确认存在未观察到的状态;在识别出未观察到的状态时,替换当前状态为之前时刻的状态,并调整即时奖励以反映该替换;
8.如权利要求1至7任一项所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,步骤s4中,所述drl决策模块具体包括:
9.如权利要求1至8任一项所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法,其特征在于,通过远程环境交互模块,在环境中执行智能体生成的动作指令,并收集由动作引起的环境反馈,包括新的状态信息和奖励,然后将所述反馈传递给主端的drl决策模块。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序由处理器执行时实现如权利要求1至9任一项所述的基于深度强化学习的遥操作空间机械臂轨迹规划方法。