非接触供电列车优化驾驶及能量管理的控制方法与流程

专利2024-08-03  54


本发明属于轨道车辆优化驾驶和能量管理控制技术领域,尤其是涉及一种非接触供电列车集优化驾驶和能量管理为一身的控制方法。



背景技术:

锂电池由于其高效、清洁、可再生的优点,越来越成为列车动力系统的重要组成部分。作为非接触供电列车的关键技术,能量管理控制策略的优劣直接影响到列车运行过程中的能量利用效率。为了使非接触供电列车在全线路运行中所受限制下,能够最大程度的发挥节能减排的功效,需要保证能量管理策略具有很好的全局性。

锂离子电池的健康状态和锂离子电池使用过程中荷电状态的变化是有联系的,因此在非接触供电列车全线路运行中保证锂离子电池荷电状态在合适的范围内对延长电池的使用寿命至关重要。

由于参数较多、耦合性强,目前对能量管理控制策略的研究和对优化驾驶的研究大多是分隔开的,同时这也是有局限性的,因此提出一种既考虑能量管理又进行优化驾驶的控制方法对列车的安全稳定运行和最大化节能减排能力很有意义。



技术实现要素:

本发明的目的是针对非接触供电有轨电车设计了一种集优化驾驶和能量管理于一体的智能控制方法,以列车全线路运行的经济性最优和准点到站为目标,提高了整车的能量利用效率、并同时保证列车在允许的时间范围内准时到达站点。

为实现上述发明目的,本发明提供一种非接触供电列车优化驾驶及能量管理的控制方法,其特征在于包括下列步骤:

1、根据如图2所示的列车单质点模型,构建列车运动学方程,公式如下:

式中,fdr表示牵引电机向列车提供的牵引力或制动力(正数表示牵引、负数表示制动);x表示列车的运行距离;v表示列车的速度;m表示列车的等效质量;ff表示列车受到的阻力,可通过牵引计算规程进行计算,公式如下:

式中,ωo、ωi和ωr分别表示机车的单位基本阻力,单位坡道阻力和单位曲线阻力(n/kn);i(x)和r(x)分别表示在位置为x时的坡度(‰)和曲线半径(m);a、b、c表示根据机车试验获取的基本阻力系数(一般机车在速度v≤2.5km/h时,单位基本阻力按照启动阻力计算);g表示重力加速度(m/s2)。

2、根据如图3所示的动力电池等效电路拓扑,建立动力电池模型,公式如下:

式中,pbat表示电池的输出功率;uocv表示电池的开路电压;ro表示电池的内阻;ibat表示电池的输出电流;soc表示电池的荷电状态;qbat表示电池的额定容量。

3、结合列车运动学方程以及动力电池模型,构建整车全系统的状态方程,公式如下:

式中,电池输出功率pbat以及电机向列车提供的牵引力或制动力fdr,作为决策量u=[pbat,fdr]t。列车运行距离s、列车运行速度v以及电池荷电状态soc作为状态量x=[s,v,soc]t

4、根据如图1所示的非接触供电列车拓扑结构,基于能量守恒定理,利用列车牵引力/制动力fdr,列车运行速度v以及电池输出功率pbat,计算非接触供电系统输出功率pwire,公式如下:

式中,paux表示辅助系统输出功率,设为恒定值;ηdc/dc和ηtran分别表示车载dc/dc的效率以及列车牵引传动系统效率。

5、通过整车全系统的状态方程,非接触供电系统能耗函数,列车运行速度超过限速的惩罚函数,电池soc超过上边界和下边界的惩罚函数,以及列车运行时间与目标时间不符的惩罚函数,计算用于强化学习的奖励函数,奖励函数r的计算公式为:

式中,r1表示非接触供电系统能耗;r2表示列车运行速度超过限速的惩罚函数;r3和r4分别表示电池soc超过上边界和下边界的惩罚函数;r5表示列车运行时间与目标时间不符的罚函数;sf表示列车的终点位置;α1、α2、α3、α4以及α5表示对应奖励的权重系数。具体公式如下所示:

式中,pwire和ηwire分别表示非接触供电系统的输出功率和效率;vlim表示限速值;分别表示电池荷电状态的上下边界;分别表示列车到达终点时,时间约束的上下边界;c1~c19表示惩罚函数的相关系数。

6、基于整车全系统状态方程以及奖励函数,根据列车当前状态量xk,当前决策量uk,可以计算下一时刻的状态量xk+1以及该过程产生的奖励值r,并将其进行存储。

7、利用存储的状态变量x,决策量u以及奖励值r,更新对应的价值q,公式为:

式中,x表示状态量;u表示决策量;α和γ分别表示学习率以及折损系数。

8、设置神经网络的输入为状态量x以及决策量u,输出为对应的价值q。并利用数据库中的数据,对神经网络进行多次的训练,直至神经网络收敛且误差小于设置的要求。

9、针对训练好的神经网络,输入列车当前阶段的运行状态以及所有可行的决策。训练好的神经网络可以输出所有可行决策对应的价值q,并选择最大价值对应的决策u作为当前列车优化控制的输出,从而完成列车优化驾驶及能量管理。

本发明能够在非接触供电列车的运行过程中实现高效的能量管理和优化的驾驶控制方法,基于强化学习,以列车全线路运行的经济性最优和准点到站为目标,实现了提高整车的能量利用效率,同时列车能在误差允许范围内准时到达站点。

附图说明

图1为列车单质点模型示意图;

图2为动力电池等效电路拓扑;

图3为非接触供电列车的拓扑结构;

图4为基于强化学习的优化控制框架。

具体实施方式

如图1所示为列车单质点模型示意图,其中fdr表示牵引电机向列车提供的牵引力或制动力(正数表示牵引、负数表示制动),ff表示列车受到的阻力,fn表示列车受到的支持力,mg表示列车的重力。据此,列车运动学方程可以表示为:

式中,s表示列车的运行距离;v表示列车的速度;m表示列车的等效质量。

如图2所示为动力电池的等效电路模型。其中,uocv表示电池的开路电压、ro表示电池的内阻、ibat表示电池的输出电流、pbat表示电池的输出功率。因此,电池的状态方程为:

式中,soc表示电池的荷电状态;qbat表示电池的额定容量。

本发明将电池输出功率pbat以及电机向列车提供的牵引力或制动力fdr,作为决策量u。将列车运行距离s、列车运行速度v以及电池荷电状态soc作为状态量x。据此,整个系统的状态方程为:

本发明专利提供的优化驾驶及能量管理策略的目标为:在保证列车准点到达的前提下,减少列车全程运行能耗。同时在列车运行过程中,列车运行速度不能超过当前位置的限速值vlim。针对该目标,设计强化学习的奖励函数为:

式中,r1表示非接触供电系统能耗;r2表示列车运行速度超过限速的惩罚函数;r3和r4分别表示电池soc超过上边界和下边界的惩罚函数;r5表示列车运行时间与目标时间不符的罚函数;sf表示列车的终点位置;α1、α2、α3、α4以及α5表示对应奖励的权重系数。具体公式如下所示:

式中,pwire和ηwire分别表示非接触供电系统的输出功率和效率;vlim表示限速值;分别表示电池荷电状态的上下边界;分别表示列车到达终点时,时间约束的上下边界;c1~c19表示惩罚函数的相关系数。

如图3所示为本发明研究的非接触供电列车拓扑结构。其中,非接触供电系统和电池系统为整车牵引系统以及辅助系统提供能量。牵引电机通过列车传动系统向列车提供牵引力或电制动力。图1中,pwire、pbat以及paux分别表示非接触供电系统的输出功率、电池系统的输出功率以及辅助系统的需求功率;ηwire、ηdc/dc以及ηtran分别表示非接触供电系统的效率、车载dc/dc变换器的效率以及列车牵引传动系统的效率。

如图4所示,本发明基于上述整个系统的状态方程以及奖励函数,利用强化学习的深度q网络算法(deepqnetwork简称dqn)进行离线学习,具体伪代码如下:

(1)初始化记忆池,将它的容量设置为n;

(2)初始化q值神经网络,随机生成其权重参数;

(3)初始化目标q值神经网络,令其与q值神经网络相同;

(4)循环至要求的训练次数m:

(4.1)初始化第一阶段的状态量x1;

(4.2)循环至要求的列车运行阶段数n:

(4.2.1)用随机贪婪法确定当前阶段的决策uk;贪婪法的选取规则为,通过当前阶段状态xk对应下,使得q值最大的决策作为当前决策,公式为:uk=maxuq(xk,u;θ);

(4.2.2)执行当前决策uk,通过系统的状态方程和奖励函数,求解下一阶段的状态xk+1以及当前的奖励值r;并将(xk,uk,ri,xk+1)存储到记忆池中;

(4.2.3)从记忆池中,随机的抽取部分样本(xi,ui,ri,xi+1);

(4.2.4)通过从记忆池中随机抽取的第i个样本,从而计算参数yi,从而用于更新q值网络,公式为:yi=ri+γmaxu'q(xi+1,u';θ);

(4.2.5)基于公式(yi-q(xi,u;θ))2,针对q值神经网络利用梯度下降法进行训练。

最后,将训练好的神经网络用作实际非接触供电有轨电车的智能控制中。针对列车的实时运行状态,计算不同决策的值函数,并将价值最高的决策,作为控制器的实际控制值,并下达给各个子系统的控制器中。


技术特征:

1.一种非接触供电列车优化驾驶及能量管理的控制方法,其特征在于包括下列步骤:

(1)、根据如图2所示的列车单质点模型,构建列车运动学方程,公式如下:

式中,fdr表示牵引电机向列车提供的牵引力或制动力(正数表示牵引、负数表示制动);x表示列车的运行距离;v表示列车的速度;m表示列车的等效质量;ff表示列车受到的阻力,可通过牵引计算规程进行计算,公式如下:

式中,ωo、ωi和ωr分别表示机车的单位基本阻力,单位坡道阻力和单位曲线阻力(n/kn);i(x)和r(x)分别表示在位置为x时的坡度(‰)和曲线半径(m);a、b、c表示根据机车试验获取的基本阻力系数(一般机车在速度v≤2.5km/h时,单位基本阻力按照启动阻力计算);g表示重力加速度(m/s2)。

(2)、根据如图3所示的动力电池等效电路拓扑,建立动力电池模型,公式如下:

式中,pbat表示电池的输出功率;uocv表示电池的开路电压;ro表示电池的内阻;ibat表示电池的输出电流;soc表示电池的荷电状态;qbat表示电池的额定容量。

(3)、结合列车运动学方程以及动力电池模型,构建整车全系统的状态方程,公式如下:

式中,电池输出功率pbat以及电机向列车提供的牵引力或制动力fdr,作为决策量u=[pbat,fdr]t。列车运行距离s、列车运行速度v以及电池荷电状态soc作为状态量x=[s,v,soc]t

(4)、根据如图1所示的非接触供电列车拓扑结构,基于能量守恒定理,利用列车牵引力/制动力fdr,列车运行速度v以及电池输出功率pbat,计算非接触供电系统输出功率pwire,公式如下:

式中,paux表示辅助系统输出功率,设为恒定值;ηdc/dc和ηtran分别表示车载dc/dc的效率以及列车牵引传动系统效率。

(5)、通过整车全系统的状态方程,非接触供电系统能耗函数,列车运行速度超过限速的惩罚函数,电池soc超过上边界和下边界的惩罚函数,以及列车运行时间与目标时间不符的惩罚函数,计算用于强化学习的奖励函数,奖励函数r的计算公式为:

式中,r1表示非接触供电系统能耗;r2表示列车运行速度超过限速的惩罚函数;r3和r4分别表示电池soc超过上边界和下边界的惩罚函数;r5表示列车运行时间与目标时间不符的罚函数;sf表示列车的终点位置;α1、α2、α3、α4以及α5表示对应奖励的权重系数。具体公式如下所示:

式中,pwire和ηwire分别表示非接触供电系统的输出功率和效率;vlim表示限速值;分别表示电池荷电状态的上下边界;分别表示列车到达终点时,时间约束的上下边界;c1~c19表示惩罚函数的相关系数。

(6)、基于整车全系统状态方程以及奖励函数,根据列车当前状态量xk,当前决策量uk,可以计算下一时刻的状态量xk+1以及该过程产生的奖励值r,并将其进行存储。

(7)、利用存储的状态变量x,决策量u以及奖励值r,更新对应的价值q,公式为:

式中,x表示状态量;u表示决策量;α和γ分别表示学习率以及折损系数。

(8)、设置神经网络的输入为状态量x以及决策量u,输出为对应的价值q。并利用数据库中的数据,对神经网络进行多次的训练,直至神经网络收敛且误差小于设置的要求。

(9)、针对训练好的神经网络,输入列车当前阶段的运行状态以及所有可行的决策。训练好的神经网络可以输出所有可行决策对应的价值q,并选择最大价值对应的决策u作为当前列车优化控制的输出,从而完成列车优化驾驶及能量管理。

技术总结
本发明提供一种非接触供电列车优化驾驶及能量管理的控制方法,本发明能够在非接触供电列车的运行过程中实现高效的能量管理和优化的驾驶控制方法,基于强化学习,以列车全线路运行的经济性最优和准点到站为目标,实现了提高整车的能量利用效率,同时列车能在误差允许范围内准时到达站点。

技术研发人员:王莉;赵庆华;付春风;张丽娜
受保护的技术使用者:中车长春轨道客车股份有限公司
技术研发日:2020.12.22
技术公布日:2021.04.06

转载请注明原文地址:https://xbbs.6miu.com/read-20879.html