本申请涉及强化学习,特别是涉及一种无人艇追踪轨迹的优化方法、设备、介质及产品。
背景技术:
1、随着科技的进步和军事需求的增加,无人艇在海上巡查和军事行动中的应用日益广泛。无人艇由于其不受人为干预的优势,能够在复杂环境中执行多种任务,包括对海上舰艇的跟踪巡查和对潜水艇的回收操作。为了实现无人艇在这些任务中的高效和精准控制,轨迹追踪技术成为关键技术之一。
2、传统的目标追踪方法通常依赖于固定的控制算法和预设的目标模型,这些方法在面对动态环境和复杂目标时,往往显得力不从心。进而影响无人艇的追踪轨迹不准确而导致无人艇追踪精度和效率低的问题。
技术实现思路
1、本申请的目的是提供一种无人艇追踪轨迹的优化方法、设备、介质及产品,以解决无人艇的追踪轨迹准确度低,导致无人艇追踪精度和效率低的问题。
2、为实现上述目的,本申请提供了如下方案:
3、第一方面,本申请提供了一种无人艇追踪轨迹的优化方法,包括:
4、获取无人艇当前时刻的状态量;所述状态量包括无人艇的当前位置、无人艇的当前速度、动态目标的当前位置、动态目标的当前速度、无人艇和动态目标之间的当前欧式距离、无人艇当前朝向角与无人艇和动态目标连线的当前夹角,以及无人艇两个螺旋桨电机当前控制量;所述无人艇两个螺旋桨电机当前控制量作为动作,以驱动无人艇运动;
5、将当前时刻的状态量输入无人艇轨迹追踪网络模型,得到下一时刻的动作;
6、执行所述下一时刻的动作,确定下一时刻的状态量和执行动作的局部奖励;
7、根据下一时刻的状态量和预设条件,确定无人艇在整个追踪持续过程中的追踪轨迹;所述整个追踪持续过程为从开始追踪动态目标至停止追踪动态目标;
8、根据所述整个追踪持续过程的持续时间,所述无人艇执行动作的次数和所述每次动作对应的经验数据,更新每一组经验数据中的局部奖励,得到目标经验数据;所述经验数据包括所述当前时刻的动作,所述下一时刻的状态量,所述当前时刻的状态量以及所述局部奖励;
9、基于优先经验回放算法,采样目标经验数据得到多个训练样本;
10、根据所述多个训练样本训练所述无人艇轨迹追踪网络模型,得到训练后的无人艇轨迹追踪网络模型;
11、根据训练后的无人艇轨迹追踪网络模型对所述追踪轨迹进行优化,确定优化后的追踪轨迹。
12、第二方面,本申请提供了一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现所述的一种无人艇追踪轨迹的优化方法的步骤。
13、第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的一种无人艇追踪轨迹的优化方法的步骤。
14、第四方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述一种无人艇追踪轨迹的优化方法的步骤。
15、根据本申请提供的具体实施例,本申请公开了以下技术效果:
16、本发明首先通过获取无人艇当前时刻的状态量,输入无人艇轨迹追踪网络模型得到下一时刻的动作,执行所述下一时刻的动作确定下一时刻的状态量和执行动作的局部奖励,进而获得无人艇追踪动态目标整个过程中的多组经验数据,并针对每一组经验数据中的局部奖励,利用无人艇追踪动态目标的持续时间,无人艇执行动作的次数和每次动作对应的经验数据进行更新,以提高每一组经验数据中局部奖励的准确性。然后,通过优先经验回放算法对目标经验数据进行采样得到的多个训练样本对无人艇轨迹追踪网络模型进行训练,可以让无人艇轨迹追踪网络模型在训练过程中能够更加高效地学习到有用的信息,从而提升整体的学习效果。训练后的无人艇轨迹追踪网络模型因为优先经验回放算法得到迅速收敛且稳定性较强。因此,通过训练后的无人艇轨迹追踪网络模型输出的下一时刻的动作更准确,进而基于训练后的无人艇轨迹追踪网络模型确定的优化后的追踪轨迹的准确度得到了大幅提升,从而有效提高无人艇的追踪精度和效率。
1.一种无人艇追踪轨迹的优化方法,其特征在于,所述无人艇追踪轨迹的优化方法包括:
2.根据权利要求1所述的无人艇追踪轨迹的优化方法,其特征在于,根据下一时刻的状态量和预设条件,确定无人艇在整个追踪持续过程中的追踪轨迹,具体包括:
3.根据权利要求1所述的无人艇追踪轨迹的优化方法,其特征在于,根据所述整个追踪持续过程的持续时间,所述无人艇执行动作的次数和所述每次动作对应的经验数据,更新每一组经验数据中的局部奖励,得到目标经验数据,具体包括:
4.根据权利要求1所述的无人艇追踪轨迹的优化方法,其特征在于,所述无人艇轨迹追踪网络模型的网络结构,具体包括:
5.根据权利要求4所述的无人艇追踪轨迹的优化方法,其特征在于,根据所述多个训练样本训练所述无人艇轨迹追踪网络模型,得到训练后的无人艇轨迹追踪网络模型,具体包括:
6.根据权利要求4所述的无人艇追踪轨迹的优化方法,其特征在于,所述策略网络的参数更新过程为:根据所述当前时刻的动作和所述当前时刻的状态动作对的状态价值评估值,对所述策略网络进行迭代训练,更新策略网络的参数;
7.根据权利要求1所述的无人艇追踪轨迹的优化方法,其特征在于,执行所述下一时刻的动作,确定下一时刻的状态量和执行动作的局部奖励,具体包括:
8.根据权利要求1所述的无人艇追踪轨迹的优化方法,其特征在于,根据训练后的无人艇轨迹追踪网络模型对所述追踪轨迹进行优化,确定优化后的追踪轨迹,具体包括:
9.根据权利要求1所述的无人艇追踪轨迹的优化方法,其特征在于,所述优先经验回放算法的计算公式为:
10.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-9中任一项所述的无人艇追踪轨迹的优化方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-9中任一项所述的无人艇追踪轨迹的优化方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-9中任一项所述的无人艇追踪轨迹的优化方法。