本发明涉及无线通信技术领域,尤其涉及一种基于独立学习的移动边缘计算任务卸载方法。
背景技术:
随着移动通信速率的持续提升、物联网(internetofthings,iot)业务应用的不断涌现以及移动终端种类的日益丰富,使得iot设备(如智能手机、传感器等设备)数量呈现指数式增长。然而,绝大多数iot设备自身体积和电池容量十分有限,在处理计算密集型应用时,会出现计算速度缓慢、掉点迅速等问题,无法满足计算密集型应用对处理能力、续航能力等的需求,这使得计算密集型应用与资源受限的iot设备之间的冲突日益加剧。移动边缘计算(mobileedgecomputing,mec)通过在无线接入侧部署通用服务器,就近提供it和云计算的能力,大大提高了计算密集型和时延敏感型业务的计算效率,从而有效缓解了移动网络对于时延的要求。
iot设备的能量有限是阻碍mec发展的关键问题,通常可以通过配备大电池或经常为电池充电来解决,但由于iot设备的尺寸有限,难以配备大型的电池装置。因此,本文引入了能量收集,iot设备通过配备的能量收集器从外部捕获周围的可再生能源,如风能、太阳能和射频信号等,以延长电池寿命,并在一定程度上延长mec系统的使用寿命。本文考虑能量受限的iot设备,将iot设备的电池电量作为iot设备决定是否卸载的性能指标。
与此同时,多样化网络共存将成为一种常态,在未来移动通信领域,网络异构(heterogeneousnetwork,hetnet)将成为必然的发展趋势,对mec的研究可以延伸至异构mec(heterogeneous-mec,het-mec)系统。
技术实现要素:
为了降低了iot设备的时延和能耗的总开销,本发明提出一种基于独立学习的移动边缘计算任务卸载方法,具体包括以下步骤:
s1、建立系统模型,并根据处理的任务数构建iot设备端的任务队列模型;
s2、确定任务计算方式并建立通信模型;
s3、建立任务本地计算模型,得到本地任务计算总开销;
s4、建立任务卸载计算模型,得到卸载任务计算总开销;
s5、引入能量收集,建立iot设备端的剩余电量队列模型;
s6、构建以最小化mec系统中iot设备总开销的长期平均为目标的优化问题;
s7、建立基于强化学习的独立学习任务卸载模型,包括系统状态空间、动作空间和奖励函数,求解最优的任务卸载策略。
进一步的,在iot设备端的任务队列模型中,在t+1时隙任务队列q(t)的更新表示为:
q(t+1)=min{max{q(t)-bi(t),0}+π(t),q};
其中,q(t)表示第t个决策时隙iot设备队列中的任务数;bi(t)表示iot设备在第t个决策时隙决定处理的任务数,i∈{0,1,2,...,n,n+1},当i=0表示iot设备决定在本地处理计算任务、i=1表示iot设备决定将任务卸载到mbs、i>1表示iot设备决定将任务卸载到sbs;π(t)表示t个决策时隙内iot设备产生的任务数,π(t)服从均值为λ的泊松分布且π(t)独立同分布,q表示可在iot设备缓存队列排队的最大计算任务数。
进一步的,确定任务计算方式包括:
ai(t)∈{0,1},i∈{0,1,2,...,n,n+1};
其中,ai(t)=1表示iot设备选择方式i执行计算任务,否则有ai(t)=0;i=0表示iot设备选择在本地执行任务,i=1表示iot设备选择卸载到mbs执行任务,i>1表示iot设备选择卸载到sbs执行任务,且iot设备在每个决策时隙只能选择一种计算方式。
进一步的,本地任务计算总开销表示为:
cl(t)=λttl(t)+λeel(t);
el(t)=plξb0(t);
其中,cl(t)为本地任务计算总开销,tl(t)为第t个决策时隙任务在本地计算的时延,el(t)为第t个决策时隙任务在本地计算的能耗,λt与λe分别代表时延和能耗的权重系数;b0(t)表示在第t个决策时隙iot设备在本地处理的任务数,ξ表示处理单个任务所需要的cpu周期数,fl表示iot设备的计算能力,pl为iot设备计算单位cpu周期所消耗的能耗。
进一步的,卸载任务计算总开销表示为:
其中,
进一步的,iot设备端的剩余电量队列模型表示为:
e(t+1)=min{max{e(t)-e(t),0}+q(t),emax};
其中,e(t+1)表示在第t+1个决策时隙的开始iot设备的剩余电量,e(t)表示在第t个决策时隙的开始iot设备的剩余电量,e(t)表示任务本地或卸载计算的能耗,q(t)表示iot设备从周围环境中获取的能量,emax表示iot设备的最大电池容量。
进一步的,iot设备从周围环境中获取的能量q(t)表示为:
其中,μ∈(0,1)表示能量转换效率,ν(t)表示在时隙t的发射功率,d表示无线充电发射器与iot设备之间的距离,κ表示路径损耗因子,
进一步的,以最小化mec系统中iot设备总开销的长期平均为目标的优化问题表示为:
其中,c(t)为在决策时隙tiot设备的总开销;e[·]表示求期望;t表示时隙的总长度;
进一步的,在基于强化学习的独立学习任务卸载模型中系统的状态空间表示为:
s(t)=[q(t),e(t),gi(t)];
系统的动作空间表示为:
y(t)=[ai(t),bi(t)];
系统的奖励函数表示为:
其中,s为系统的状态空间,s(t)∈s,q(t)∈{0,1,...,q}表示iot设备任务缓存队列的任务数,e(t)∈{0,1,...,emax}表示第t个决策时隙iot设备的剩余电量,gi(t)∈g表示第t个决策时隙iot设备与基站i之间的信道增益;y为系统的动作空间,y(t)∈y,ai(t)∈{0,1},i∈{0,1,2,...,n,n+1}表示iot设备选择的计算方式,bi(t)∈{1,2,...,q(t)},i∈{0,1,2,...,n,n+1}表示iot设备在第t个决策时隙决定处理的任务数;r(s(t),y(t))为系统的奖励函数,β∈[0,1]表示平衡本地计算总开销和当前状态的实际开销的权重,i(e(t)≥el(t))表示剩余电量支持本地计算,
进一步的,求解最优的任务卸载策略包括:
根据状态s下动作a对应的动作值函数计算策略π累积的奖励值期望,策略π为一个待执行动作合集,该期望表示为:
通过最大化t时刻的动作值函数qt(s,y),获得最优卸载策略,t+1时刻的动作值函数表示为:
qt+1(s,y)=qt(s,y)+α(rt(s,y)+γmaxy'∈yqt(s′,y′)-qt(s,y));
最优卸载策略表示为:
π*(s)=argmaxy∈yq*(s,y);
其中,γ为折扣因子;α表示学习速率;s(0)表示初始状态,s(t)表示t时刻的状态;y(0)表示初始动作,y(0)表示t时刻的动作,y表示所有动作的集合;qt(s′,y′)表示t时刻状态s′下动作y′的价值;rt(s,y)为t时刻状态s下动作a的价值函数;π表示选择的策略,π*(s)为最优卸载策略;q*(s,y)表示得到的最优动作值的价值函数。
本发明引入了能量收集模型,并利用dqn的独立学习方法得到最优卸载策略,不仅极大地降低了iot设备的时延和能耗的总开销,而且在一定程度上延长mec系统的使用寿命。
附图说明
图1为本发明的两层mec异构网络模型图;
图2为本发明提出了基于独立学习的移动边缘计算任务卸载方法的流程示意图;
图3为本发明基于强化学习q-learning的独立学习任务卸载策略算法流程图;
图4为iot设备与异构mec环境的交互过程;
图5为本发明所提出的方法与完全本地计算之间的时延性能对比仿真图;
图6为本发明所提出的方法与完全本地计算之间的能耗性能对比仿真图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于独立学习的移动边缘计算任务卸载方法,如图2,具体包括以下步骤:
s1、建立系统模型,并根据处理的任务数构建iot设备端的任务队列模型;
s2、确定任务计算方式并建立通信模型;
s3、建立任务本地计算模型,得到本地任务计算总开销;
s4、建立任务卸载计算模型,得到卸载任务计算总开销;
s5、引入能量收集,建立iot设备端的剩余电量队列模型;
s6、构建以最小化mec系统中iot设备总开销的长期平均为目标的优化问题;
s7、建立基于强化学习的独立学习任务卸载模型,包括系统状态空间、动作空间和奖励函数,求解最优的任务卸载策略。
本发明的实施例采用两层异构(macro-smallcell)网络模型,如图1所示。面向异构网络的mec应用场景由一个配备有mec服务器的宏基站(macrobasestation,mbs)、n个配备有mec服务器的小基站(smallbasestation,sbs)以及一个典型iot设备构成,在mbs的覆盖范围内部署n个fbs,且iot设备支持计算密集型任务。为了方便表述,定义n={1,2,...,i,...,n,n+1}。其中,i=1表示mbs,i>1表示sbsi。
本发明采用离散时隙系统模型,将连续的时间等分成离散的决策时隙,每个决策时隙的长度为τ,代表最大容忍时延,即在每个时隙中处理任务的时延不能超过τ,t表示第t个决策时隙,t=1,2,...。在第t个决策时隙内,假设iot设备产生的任务数为π(t),π(t)服从均值为λ的泊松分布且π(t)独立同分布。使用任务模型r(ξ,η)来表示iot设备单个任务的计算特性,其中ξ表示的是处理单个任务所需要的cpu周期数,η表示iot设备单个任务的原始数据量。上一个决策时隙产生但未处理任务可以在下一个决策时隙进行处理。对于产生的任务,iot设备可以决定在本地处理,还是卸载到sbs或mbs的mec服务器上远程处理。
在本实施例中,假设iot设备存在一个队列,按照先进先出的方式存储产生的任务,在当前时隙产生但未处理的任务,需要在iot设备的缓存队列中排队等待下一时隙执行,定义q表示可在iot设备缓存队列排队的最大计算任务数,q(t)表示第t个决策时隙iot设备队列中的任务数,则在t+1时隙任务队列q(t)的更新方程为:
q(t+1)=min{max{q(t)-bi(t),0}+π(t),q};
其中,bi(t),i∈{0,1,2,...,n,n+1}表示iot设备在第t个决策时隙决定处理的任务数。其中,i=0表示iot设备决定在本地处理计算任务,i=1表示iot设备决定将任务卸载到mbs,i>1表示iot设备决定将任务卸载到sbs。如果iot设备决定将任务卸载到sbs或mbs,本发明默认mbs和sbs的计算资源充足,忽略任务到达mec服务器后的排队时延,到达的任务可以立即执行。
本发明定义iot设备的卸载决策为ai(t)∈{0,1},i∈{0,1,2,...,n,n+1}。ai(t)=1表示iot设备选择方式i执行计算任务,否则有ai(t)=0。i=0表示iot设备选择在本地执行任务,i=1表示iot设备选择卸载到mbs执行任务,i>1表示iot设备选择卸载到sbs执行任务,且iot设备在每个决策时隙只能选择一种计算方式。
进一步的,在第t个决策时隙,iot设备在信道上访问基站i的上行链路传输速率为:
其中,bi表示基站i分配给iot设备的带宽,ptr表示iot设备向基站i传输数据的功率,假设信道增益在一个决策时隙内保持不变,在不同的决策时隙信道增益不同,gi(t)∈g表示第t个决策时隙iot设备与基站i之间的信道增益,其中g表示有限信道增益状态空间,σ2表示高斯白噪声功率。
第t个决策时隙,如果iot设备决定任务在本地计算,则任务在本地计算的时延和能耗分别为:
el(t)=plξb0(t);
其中,b0(t)表示在第t个决策时隙iot设备在本地处理的任务数,ξ表示处理单个任务所需要的cpu周期数,常数fl表示iot设备的计算能力,pl为iot设备计算单位cpu周期所消耗的能耗。
进一步的,第t个决策时隙,iot设备本地计算的时延和能耗的总开销为:
cl(t)=λttl(t)+λeel(t);
其中,λt与λe分别代表时延和能耗的权重系数,满足λt∈[0,1],λe∈[0,1]且λt+λe=1。任务的类型不同,权重也会不同,本文假设在计算卸载过程中λt与λe保持不变。
本实施例的卸载时延包括传输时延、处理时延和回传时延。
第t个决策时隙,iot设备通过无线接入网将任务发送到目标基站i的传输时延为:
其中,bi(t)表示在第t个决策时隙iot设备卸载到目标基站i的任务数。
本实施例中,假设mbs配备的mec服务器与sbss配备的mec服务器计算能力不同,认为mec服务器的计算资源非常丰富,因此忽略任务到达mec服务器的排队时延,则有
第t个决策时隙,基站i的mec服务器处理计算任务所需要的处理时延为:
其中,fi表示mec服务器分配给iot设备的计算资源。
由于mec服务器处理后的数据量远小于输入数据量,且回传数据速率一般很高,因此本发明忽略基站i的mec服务器将执行结果回传给iot设备的回传时延。
进一步的,iot设备将任务卸载到基站i的总时延为:
本实施例的卸载能耗包括传输能耗以及等待能耗。
第t个决策时隙,iot设备将计算任务传输到基站i的能耗为:
其中,ptr表示iot设备上传数据的传输功率。
iot设备将任务发送到mec服务器后,此时的iot设备处于空闲等待状态,等待能耗为:
其中,po表示iot设备空闲时的功率。
进一步的,iot设备将任务卸载到基站i的总能耗为:
进一步的,iot设备将任务卸载到基站i的时延和能耗的总开销为:
本实施例引入能量收集,iot设备配备有能量收集器,可将捕获的可再生能源转换为电能,通过无线充电发射器在空中传输稳定的能量,存储在iot设备的电池中,以支持计算任务的处理。假设iot设备除了计算、传输和等待之外,其他能量消耗可以忽略不计,最大电池容量为emax。在第t个决策时隙,iot设备从周围环境中获取的能量记为q(t),由下式给出:
其中,μ∈(0,1)表示能量转换效率,ν(t)表示在时隙t的发射功率,d表示无线充电发射器与iot设备之间的距离,κ表示路径损耗因子,
则在第t+1个决策时隙,iot设备的剩余电量分为以下两种情况:
在决策时隙t,iot设备选择将任务在本地处理时:
e(t+1)=min{max{e(t)-el(t)emax};
其中,e(t)表示在第t个决策时隙的开始iot设备的剩余电量,el(t)表示任务在本地计算的能耗。
在决策时隙t,iot设备选择将计算任务卸载到基站i时:
其中,
本实施例所建立的mec卸载系统中,iot设备的总开销为:
将iot设备的卸载决策设定为优化问题,优化目标是最小化mec系统中iot设备总成本的长期平均。优化目标可以表述为:
其中,e[·]表示求期望,ai(t)表示iot设备的卸载决策,ai(t)=1表示iot设备选择方式i计算任务;
由于第t+1个决策时隙的系统状态只取决于第t个时隙的状态和动作,而与之前的历史的系统状态无关,因此,可以将决策问题建模为有限状态的马尔科夫决策过程(mdp)。
定义所述系统的状态空间s:
s(t)=[q(t),e(t),gi(t)];
其中,s(t)∈s,q(t)∈{0,1,...,q}表示iot设备任务缓存队列的任务数,e(t)∈{0,1,...,emax}表示第t个决策时隙iot设备的剩余电量,gi(t)∈g表示第t个决策时隙iot设备与基站i之间的信道增益。系统状态s(t)可以在第t个决策时隙的开始观察到。
定义所述系统的动作空间y:
y(t)=[ai(t),bi(t)];
其中,y(t)∈y,ai(t)∈{0,1},i∈{0,1,2,...,n,n+1}表示iot设备选择的计算方式,bi(t)∈{1,2,...,q(t)},i∈{0,1,2,...,n,n+1}表示iot设备在第t个决策时隙决定处理的任务数。
定义所述系统的奖励函数r:
其中,β∈[0,1]表示平衡本地计算总开销和当前状态的实际开销的权重,处理第t个决策时隙iot设备任务的时延和能耗的总开销c(t)越小,则获得的奖励越多,i(e(t)≥el(t))表示剩余电量支持本地计算,
本发明在建立系统状态空间、动作空间和奖励函数后,提出一种基于强化学习q-learning的独立学习任务卸载方法以求解最优卸载策略,如图3所示。rl系统中的智能体在不需要先验知识的情况下,通过与环境交互得到相应的反馈,不断改进自己的行为,从而增强其决策能力,形成一个独立学习的rl模型。在本实施例所考虑的异构mec场景中,iot设备充当智能体与环境持续交互,寻找最佳行动,以使回报最大化。图4为iot设备与异构mec环境的交互过程,其交互过程可以建模为一个四元组的形式(s(t),y(t),r(t),s(t+1)),该四元组表示在第t个决策时隙,iot设备对环境的观察即状态s(t),然后采取动作y(t),该动作完成后,代理获得相应的奖励r(t),并跳转到新状态s(t+1),随后,根据环境给予的奖励来更新策略。
进一步的,每个状态-动作对(s(t),y(t))都对应着一个动作值函数q(s,y),表示在初始状态为s、y的条件下,采取策略π得到的一个累积的奖励期望值,基本方程表示为:
其中,γ(γ∈(0,1))为折扣因子,用来衡量奖励值在动作值函数当中的作用,s(0)表示初始状态,y(0)表示初始动作,π表示选择的策略。
通过最大化动作值函数q(s,y)获得最优的卸载策略,并利用增量求和的方式更新q(s,y),每次执行一个动作后,q(s,y)的更新方程如下:
qt+1(s,y)=qt(s,y)+α(rt(s,y)+γmaxy'∈yqt(s′,y′)-qt(s,y))
其中,α表示学习速率,学习速率的大小决定了之前的训练结果对每次更新的影响,rt(s,y)表示即时(当前为t时刻)反馈的价值函数,maxy'∈yqt(s′,y′)表示在下一个状态对应动作的最大q(s,y)。
最优策略即为最大动作值函数q*(s,y)所对应的动作,方程表示为:
π*(s)=argmaxy∈yq*(s,y);
为了确保异构mec系统可以遍历每个状态中所有潜在的动作,采取ε-greedy策略,让iot设备以概率ε随机选择动作进行探索,以1-ε概率选择q(s,y)最大的动作,mec系统在接收到动作后更新状态,并反馈一个奖励。
将任务卸载问题定义为马尔可夫决策过程,建立面向异构网络的任务卸载模型,基于强化学习q-learning方法,提出了独立学习的任务卸载策略。
图5显示了系统计算时延与计算任务数之间的关系,图6显示了系统能耗与计算任务数之间的关系。设定单个任务的数据量η为10kb,显然,iot设备的能耗和计算时延随计算任务数的增加而增加,与完全本地处理计算任务相比,本发明所提出的基于独立学习的移动边缘计算任务卸载方法可以大大降低计算任务所需的时延和能耗。
本发明引入了能量收集模型,并利用q-learning的独立学习方法得到最优卸载策略。仿真分析表明,提出的任务卸载策略不仅极大地降低了iot设备的时延和能耗的总开销,而且在一定程度上延长mec系统的使用寿命。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
1.一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,具体包括以下步骤:
s1、建立系统模型,并根据处理的任务数构建iot设备端的任务队列模型;
s2、确定任务计算方式并建立通信模型;
s3、建立任务本地计算模型,得到本地任务计算总开销;
s4、建立任务卸载计算模型,得到卸载任务计算总开销;
s5、引入能量收集,建立iot设备端的剩余电量队列模型;
s6、构建以最小化mec系统中iot设备总开销的长期平均为目标的优化问题;
s7、建立基于强化学习的独立学习任务卸载模型,包括系统状态空间、动作空间和奖励函数,求解最优的任务卸载策略。
2.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,在iot设备端的任务队列模型中,在t+1时隙任务队列q(t)的更新表示为:
q(t+1)=min{max{q(t)-bi(t),0}+π(t),q};
其中,q(t)表示第t个决策时隙iot设备队列中的任务数;bi(t)表示iot设备在第t个决策时隙决定处理的任务数,i∈{0,1,2,...,n,n+1},n表示sbs的数目,当i=0表示iot设备决定在本地处理计算任务、i=1表示iot设备决定将任务卸载到mbs、i>1表示iot设备决定将任务卸载到sbs;π(t)表示t个决策时隙内iot设备产生的任务数,π(t)服从均值为λ的泊松分布且π(t)独立同分布,q表示可在iot设备缓存队列排队的最大计算任务数。
3.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,确定任务计算方式包括:
ai(t)∈{0,1},i∈{0,1,2,...,n,n+1};
其中,ai(t)=1表示iot设备选择方式i执行计算任务,否则有ai(t)=0;i=0表示iot设备选择在本地执行任务,i=1表示iot设备选择卸载到mbs执行任务,i>1表示iot设备选择卸载到sbs执行任务,且iot设备在每个决策时隙只能选择一种计算方式。
4.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,本地任务计算总开销表示为:
cl(t)=λttl(t)+λeel(t);
el(t)=plξb0(t);
其中,cl(t)为本地任务计算总开销,tl(t)为第t个决策时隙任务在本地计算的时延,el(t)为第t个决策时隙任务在本地计算的能耗,λt与λe分别代表时延和能耗的权重系数;b0(t)表示在第t个决策时隙iot设备在本地处理的任务数,ξ表示处理单个任务所需要的cpu周期数,fl表示iot设备的计算能力,pl为iot设备计算单位cpu周期所消耗的能耗。
5.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,卸载任务计算总开销表示为:
其中,
6.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,iot设备端的剩余电量队列模型表示为:
e(t+1)=min{max{e(t)-e(t),0}+q(t),emax};
其中,e(t+1)表示在第t+1个决策时隙的开始iot设备的剩余电量,e(t)表示在第t个决策时隙的开始iot设备的剩余电量,e(t)表示任务本地或卸载计算的能耗,q(t)表示iot设备从周围环境中获取的能量,emax表示iot设备的最大电池容量。
7.根据权利要求6所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,iot设备从周围环境中获取的能量q(t)表示为:
其中,μ∈(0,1)表示能量转换效率,ν(t)表示在时隙t的发射功率,d表示无线充电发射器与iot设备之间的距离,κ表示路径损耗因子,
8.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,以最小化mec系统中iot设备总开销的长期平均为目标的优化问题表示为:
其中,c(t)为在决策时隙tiot设备的总开销;e[·]表示求期望;t表示时隙的总长度;
9.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,在基于强化学习的独立学习任务卸载模型中系统的状态空间表示为:
s(t)=[q(t),e(t),gi(t)];
系统的动作空间表示为:
y(t)=[ai(t),bi(t)];
系统的奖励函数表示为:
其中,s为系统的状态空间,s(t)∈s,q(t)∈{0,1,...,q}表示iot设备任务缓存队列的任务数,e(t)∈{0,1,...,emax}表示第t个决策时隙iot设备的剩余电量,gi(t)∈g表示第t个决策时隙iot设备与基站i之间的信道增益;y为系统的动作空间,y(t)∈y,ai(t)∈{0,1},i∈{0,1,2,...,n,n+1}表示iot设备选择的计算方式,bi(t)∈{1,2,...,q(t)},i∈{0,1,2,...,n,n+1}表示iot设备在第t个决策时隙决定处理的任务数;r(s(t),y(t))为系统的奖励函数,β∈[0,1]表示平衡本地计算总开销和当前状态的实际开销的权重,i(e(t)≥el(t))表示剩余电量支持本地计算,
10.根据权利要求9所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,求解最优的任务卸载策略包括:
根据状态s下动作a对应的动作值函数计算策略π累积的奖励值期望,策略π为一个待执行动作合集,该期望表示为:
通过最大化t时刻的动作值函数qt(s,y),获得最优卸载策略,t+1时刻的动作值函数表示为:
qt+1(s,y)=qt(s,y)+α(rt(s,y)+γmaxy'∈yqt(s′,y′)-qt(s,y));
最优卸载策略表示为:
π*(s)=argmaxy∈yq*(s,y);
其中,γ为折扣因子;α表示学习速率;s(0)表示初始状态,s(t)表示t时刻的状态;y(0)表示初始动作,y(0)表示t时刻的动作,y表示所有动作的集合;qt(s′,y′)表示t时刻状态s′下动作y′的价值;rt(s,y)为t时刻状态s下动作a的价值函数;π表示选择的策略,π*(s)为最优卸载策略;q*(s,y)表示得到的最优动作值的价值函数。
技术总结