本发明涉及自主水下机器人(auv)决策、深度强化学习和水下目标跟踪领域,具体说是一种基于深度强化学习的双基地声呐水下目标跟踪auv决策方法。
背景技术:
1、海洋安全是国防的重要组成部分,对水下目标的探测和跟踪是海洋安全面临的主要挑战。受水下环境特性的影响,声波是目前能够在水下远距离传输的唯一方式,声呐是远距离水下目标探测和跟踪的唯一有效工具。由于水下目标降噪技术的提高,被动声呐已经难以满足水下目标跟踪需求。得益于声源的高声源级,多基地声呐特别是双基地声呐成为水下目标跟踪的有效工具。特别地,由自主水下机器人(auv)搭载声呐构成的双基地声呐具有机动性好、灵活性高、持久等优势,受到国内外越来越多的关注。
2、水下目标具有机动性,导致目标跟踪态势复杂多变,需要auv根据态势变化实时调整自己的行为,以最大化对目标的跟踪精度和跟踪保持时间。针对该问题,目前主流的做法是根据人类对环境的先验知识,建立环境模型,并依据该模型建立目标函数(如基于信噪比、探测概率或信息增益等),最后利用有效的求解工具(如树搜索算法)得到最大化目标函数的解。然而,这种基于模型的方法依赖于先验知识以建立模型,先验知识不足会导致建立的模型不准确,进而大幅降低性能。此外,由于状态空间大,问题求解十分复杂和耗时,难以满足auv计算负载要求以及水下目标跟踪决策的实时性要求。
3、近年来,随着深度强化学习的发展及其在众多领域的成功应用,利用深度强化学习求解auv水下目标跟踪的决策问题成为一种有希望的方式。一方面,无模型的深度强化学习不需要先验知识和模型,auv能够直接通过和环境交互学习策略。另一方面,训练好的策略网络能够部署于auv上,且计算简单高效。然而,基于深度强化学习的auv决策仍然面临挑战。首先,直接将毫无经验的auv置于环境中交互使得auv的安全受到威胁。其次,完全基于深度强化学习得到的策略的性能无法得到保证。此外,无模型的深度强化学习样本利用率较低,需要大量的人力、物力和财力开展训练。
技术实现思路
1、针对现有方法在双基地声呐水下目标跟踪auv自主决策应用中的不足,本发明提供一种基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,避免对先验模型的过度依赖,在保障auv安全的同时令auv自主学习到更好的策略,同时能够大大降低训练所需的样本量。训练得到的策略具有性能高、决策时间短、计算复杂度低的优势。
2、本发明为实现上述目的所采用的技术方案是:基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,包括以下步骤:
3、建立双基地声呐水下目标定位模型,将声学信号处理产生的测量解算为二维坐标;基于解算的二维坐标测量,利用多目标跟踪算法估计出水下目标的状态和状态协方差矩阵;
4、建立双基地声呐水下目标跟踪环境模型,在双基地声呐水下目标跟踪环境模型、双基地声呐水下目标定位模型和多目标跟踪算法基础上,建立滚动时域优化策略的目标函数并构建求解方法,以得到动作决策;
5、基于深度神经网络建立深度强化学习的策略网络和评价网络,分别用于输出auv的动作决策和评估状态-动作值;同时利用滚动时域优化策略和深度强化学习策略令auv与环境交互,将得到的样本存到经验池;
6、利用经验池的数据训练策略网络和评价网络,调整神经网络参数;
7、训练完成后,利用训练好的策略网络进行auv动作决策。
8、所述建立双基地声呐水下目标定位模型,将声学信号处理产生的测量解算为二维坐标,具体为:
9、将声源、目标和接收器的位置连线构成三角形,在声学信号处理得到的声到达时间和到达角度的基础上,结合声源坐标、接收器坐标,推算目标的二维坐标。
10、所述利用多目标跟踪算法估计水下目标状态和状态协方差矩阵,具体为:
11、基于置信传播算法,采用高斯混合的实现途径,对解算的目标二维坐标进行数据关联和滤波,得到估计的包含位置和速度的目标状态以及状态协方差矩阵。
12、所述建立双基地声呐水下目标跟踪环境模型,包括目标强度模型、声传播模型、声呐指向性模型、测量误差模型,具体为:
13、对单基地声呐目标强度的蝴蝶图进行拟合,并将其扩展到双基地声呐,得到双基地声呐的目标强度模型;
14、基于bellhop模型建立声传播模型,用于计算声传播损失;
15、建立应用于auv的声呐线列阵的声呐指向性模型;
16、基于目标强度模型、声传播模型和声呐指向性模型计算声信噪比,然后基于woodward关系建立测量误差模型,得到声到达时间的误差和声到达角度的误差。
17、所述在双基地声呐水下目标跟踪环境模型、双基地声呐水下目标定位模型和多目标跟踪算法基础上,建立滚动时域优化策略的目标函数并构建求解方法,以得到最优决策,具体为:
18、1)基于目标状态估计先验协方差矩阵和后验协方差矩阵的迹定义信息增益:
19、
20、其中,pj|j-1为先验协方差矩阵,为后验协方差矩阵,tr()表示矩阵的迹,nopt为优化步长,为第i个决策序列中第j步的auv动作决策,表示执行动作的信息增益;
21、在的计算过程中,所需的目标位置测量生成方式为:
22、e.基于预测的目标状态计算无偏差的声到达时间和到达角度;
23、f.基于双基地声呐水下目标跟踪环境模型计算声到达时间和到达角度的测量误差;
24、g.从以无偏差的到达时间为均值,以到达时间测量误差为标准差的高斯分布中采样得到最终的带偏差的到达时间;从以无偏差的到达角度为均值,以到达角度测量误差为标准差的高斯分布中采样得到最终的带偏差的到达角度;
25、h.基于带偏差的到达时间和到达角度,通过双基地声呐水下目标定位模型解算测量的目标位置;
26、2)以最大化信息增益为目标建立目标函数:
27、
28、其中,为第i个决策序列,wj为第j步的权重;
29、3)建立搜索树,节点用于表征候选的auv动作决策,采用蒙特卡洛树搜索算法对目标函数进行求解,以寻找最优动作决策。
30、所述基于深度神经网络建立强化学习的策略网络和评价网络,具体为:
31、策略网络的输入为声源状态、接收器状态、估计目标状态以及估计目标后验协方差矩阵的对角线元素,输出为动作的均值和标准差,策略网络采用2层隐藏层,层之间采用全连接,激活函数为relu;
32、评价网络的输入为声源状态、接收器状态、估计目标状态、估计目标后验协方差矩阵的对角线元素以及auv的动作,输出为状态-动作对的评估值,评价网络采用2层隐藏层,层之间采用全连接,激活函数为relu。
33、所述同时利用滚动时域优化和深度强化学习策略令auv与环境交互,将得到的样本存到经验池,具体为:
34、在训练初期,以概率p采取随机动作策略,以概率1-p采取滚动时域优化策略,p初值为1,且随训练步数增加而减小;
35、训练中后期,则利用深度强化学习策略采取动作;
36、将训练收集到的经验构成5元组{s,a,r,s′,d};其中,s为当前状态,包括声源状态、接收器状态、估计目标状态以及估计目标后验协方差矩阵的对角线元素,a为auv采取的动作,s′为auv采取动作a后到达的下一状态,r为在当前状态采取动作并转移到下一状态获得的奖励,d用来指示下一状态是否为终止状态,将收集到的经验存放于经验池。
37、深度强化学习采用soft actor-critic算法,调整神经网络参数方法为adam。
38、所述利用训练好的策略网络进行auv动作决策,具体为:
39、将声源状态、接收器状态、估计目标状态以及估计目标后验协方差矩阵的对角线元素输入给策略网络,auv执行策略网络的动作输出,以跟踪水下目标。
40、一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法。
41、本发明具有以下有益效果及优点:
42、1.基于深度强化学习方法的auv决策将深度学习的拟合能力与强化学习的学习能力结合,能够使auv自主探索和学习动作策略,执行端到端的输出。
43、2.将基于模型的滚动时域优化策略与无模型的深度强化学习相结合用于网络训练,能够利用已有模型保障auv学习的安全性,降低训练代价,提高决策性能,同时避免对先验模型的过度依赖。
44、3.在基于模型的滚动时域优化中,基于信息增益建立目标函数,能够有效刻画auv水下目标跟踪性能。
45、4.利用蒙特卡洛树搜索算法求解滚动时域优化问题,相比于暴力搜索等其他方法更高效。
1.基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于,所述建立双基地声呐水下目标定位模型,将声学信号处理产生的测量解算为二维坐标,具体为:
3.根据权利要求1所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于,所述利用多目标跟踪算法估计水下目标状态和状态协方差矩阵,具体为:
4.根据权利要求1所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于,所述建立双基地声呐水下目标跟踪环境模型,包括目标强度模型、声传播模型、声呐指向性模型、测量误差模型,具体为:
5.根据权利要求1所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于,所述在双基地声呐水下目标跟踪环境模型、双基地声呐水下目标定位模型和多目标跟踪算法基础上,建立滚动时域优化策略的目标函数并构建求解方法,以得到最优决策,具体为:
6.根据权利要求1所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于,所述基于深度神经网络建立强化学习的策略网络和评价网络,具体为:
7.根据权利要求1所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于,所述同时利用滚动时域优化和深度强化学习策略令auv与环境交互,将得到的样本存到经验池,具体为:
8.根据权利要求1所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于,深度强化学习采用soft actor-critic算法,调整神经网络参数方法为adam。
9.根据权利要求1所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法,其特征在于,所述利用训练好的策略网络进行auv动作决策,具体为:
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-9任一项所述的基于深度强化学习的双基地声呐水下目标跟踪auv决策方法。