一种路径信息生成模型训练方法、电子设备和存储介质

专利2025-03-26  35


本发明涉及信息处理领域,特别是涉及一种路径信息生成模型训练方法、电子设备和存储介质。


背景技术:

1、在一些应用场景下,需要对包含给定的多个坐标信息的序列进行排序以得到具有最优距离的最优路径序列。当前得到最优路径序列的方法一般是将输入序列放入一个得分模型中,模型会根据序列对象特征对每个对象分配分数,再通过将分数映射到指示函数的方式,得到一个排列。得分模型旨在通过对象的特征对每个对象打分。指示函数旨在通过对象得分将对象集合转化为排列序列。排列学习过程存在由于指示函数的离散特性导致排序过程本身不连续的问题,由于逼近函数本身的局限性导致排序结果有偏的问题,因为对象得分的微小变化可能导致排列结果的剧烈变化,这就表明存在得分与排列位置密切相关的问题。现有的排序生成模型是一次生成一个排列,而大规模问题搜索空间呈指数级增长,会导致计算复杂度高,因此在面对大规模的排列问题时,一次生成一个近似最优解是很困难的。


技术实现思路

1、针对上述技术问题,本发明采用的技术方案为:

2、根据本发明第一方面,提供了一种路径信息生成模型训练方法,所述方法包括如下步骤:

3、s100,获取样本路径序列信息集i作为样本数据集,其中i=(i1,i2,……,ii,……,im),ii为i中的第i个样本路径序列信息集,i的取值为1到m,m为i中的样本路径序列信息的数量,ii=(ii1,ii2,……,iit,……,iin),iit为ii中的第t个路径序列信息,t的取值为1到n,n为时间步的数量;iit=(sit,ait,rit,pit),sit为iit在t时刻下的状态,sit={(xi1,πi1t),(xi2,πi2t),……,(xij,πijt),……,(xif(i),πif(i)t)},xij为ii对应的f(i)个路径节点中的第j个路径节点的坐标信息,πijt为第j个路径节点的在t时刻下对应的访问位置,j的取值为1到f(i);ait为iit在t时刻下的动作,rit为iit在t时刻的奖励,pit为iit在t时刻对应的所有动作的初始交换权重集,pit={pithr}h,r∈(1,2,……,f(i)),pithr为iit在t时刻下任意交换第h个路径节点和第r个路径节点所对应的动作对应的初始交换权重,h和r的取值为1到f(i);其中,pithr=z(△fithr),△fithr为第h个路径节点和第r个路径节点之间的特征差,z()为预设函数表达式。

4、s200,将当前批次的训练样本数据输入到当前的路径信息生成模型中,得到对应的当前交换权重集,并基于每个训练样本数据对应的当前交换权重集获取该训练样本数据对应的当前动作,得到对应的当前状态和当前奖励;设置c1=c1+1,如果c1≤n,执行s300,否则,设置c2=c2+1,如果c2≤c0,执行s200,否则,执行s400;c1为第一计数器,c1的初始值为0,c2为第二计数器,c2的初始值为0,c0为预设迭代次数阈值。

5、s300,基于每个训练样本数据对应的当前动作对应的当前交换权重和上一个交换权重,获取该样本数据对应的重要性系数,并基于当前获取的重要性系数对当前的路径信息生成模型的参数进行更新,并将下一批次的样本数据作为当前的训练样本数据,执行s200。

6、s400,将当前的路径信息生成模型作为目标路径信息生成模型。

7、根据本发明第二方面,提供了一种电子设备,包括处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行本发明第一方面所述方法的步骤。

8、根据本发明第二方面,提供了一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质存储程序或指令,所述程序或指令使计算机用于执行本发明第一方面所述方法的步骤。

9、本发明至少具有以下有益效果:

10、本发明实施例提供的路径信息生成模型训练方法,由于在选择动作时,考虑了每个节点对应的交换权重,能够使得在路径信息生成过程中,提高最优解的获取速度,能够提高路径信息的生成效率。

11、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种路径信息生成模型训练方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,pithr=1/(1+exp(-△fithr)(πiht-πirt))/β,exp()表示以自然数e为底的指数函数,β为超参数。

3.根据权利要求1所述的方法,其特征在于,所述路径信息生成模型为强化学习模型。

4.根据权利要求3所述的方法,其特征在于,所述路径信息生成模型包括排列等变的节点嵌入表征网络、排列不变的交互特征策略网络和评价网络;

5.根据权利要求4所述的方法,其特征在于,所述节点嵌入表征网络的输出包括坐标信息嵌入特征和访问位置嵌入特征,其中,所述坐标信息嵌入特征通过如下步骤获取得到:

6.根据权利要求5所述的方法,其特征在于,所述交互特征策略网络的输出为动作,所述动作通过如下步骤获取得到:

7.根据权利要求6所述的方法,其特征在于,

8.根据权利要求5所述的方法,其特征在于,所述评价网络的输入包括((h1,g1),(h2,g3),……,(hu,gu),……,(hx,gx)),hu和gu分别为任一路径信息中的第u个节点对应的坐标信息嵌入特征和访问位置嵌入特征,u的取值为1到x,x为该路径信息对应的节点数量。

9.一种电子设备,其特征在于,包括处理器和存储器;

10.一种非瞬时性计算机可读存储介质,其特征在于,所述非瞬时性计算机可读存储介质用于存储程序或指令,所述程序或指令使计算机执行如权利要求1至8任一项所述方法的步骤。


技术总结
本发明提供了一种路径信息生成模型训练方法,包括:获取样本路径序列信息集作为样本数据集;将当前批次的训练样本数据输入到当前的路径信息生成模型中,得到对应的当前交换权重集,并获取该训练样本数据对应的当前动作,得到对应的当前状态和当前奖励;设置c1=c1+1,如果c1≤n,进入下一步,否则,设置c2=c2+1,如果c2≤C0,进入上一步,否则,将当前的路径信息生成模型作为目标路径信息生成模型;基于每个训练样本数据对应的当前动作对应的当前交换权重和上一个交换权重,获取该样本数据对应的重要性系数,进行更新,并将下一批次的样本数据作为当前的训练样本数据,进入上一步。本发明能提高计算效率。

技术研发人员:唐诗涵,张杰,周辉,卢敏
受保护的技术使用者:中国民航大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-22782.html