双策略模型调用方法、装置、电子设备及存储介质与流程

专利2025-06-21  10


本技术涉及计算机,尤其涉及一种双策略模型调用方法、装置、电子设备及计算机可读存储介质。


背景技术:

1、在实际的模型预测业务场景中,通常会遇到两种业务类型,一类业务需要提供多个模型供用户选择。例如文生图业务,其是一个由用户提供文字或者其他内容,利用各种模型生成图片的业务。文生图业务提供了几百个模型供用户选择,但若对每个模型均分配一台服务器,会造成计算资源的极大浪费和高额的成本。

2、另一类业务类型只需提供一个模型,且模型的响应时间不能过长。例如,对用户上传的图像进行加特效、风格变换等处理的业务,只有一种模型进行图像处理,若用户在使用该业务时再向服务器加载模型,会造成对用户的响应时间过长,使用效率较低。

3、因此,如何在有限的硬件设备上,满足不同业务的模型使用需求,既提高设备的利用效率,同时又避免响应时间过长,使目前需要解决的问题。


技术实现思路

1、鉴于此,为解决上述部分或全部技术问题,本技术实施例提供一种双策略模型调用方法、装置、电子设备及计算机可读存储介质。

2、第一方面,本技术实施例提供一种双策略模型调用方法,该方法包括:接收对目标模型的调用请求;根据调用请求,确定目标模型对应的加载策略;若加载策略为按需加载策略,从预设的设备集群中,确定可加载目标模型的第一目标设备,并将目标模型加载入第一目标设备中;若加载策略为预加载策略,从设备集群中,确定预先加载了目标模型的预设数量个设备;从预设数量个设备中确定第二目标设备;响应于接收到调用请求的发送端发送的待处理数据,利用第一目标设备或第二目标设备上的目标模型,对待处理数据进行处理。

3、在一个可能的实施方式中,从预设的设备集群中,确定可加载目标模型的第一目标设备,包括:从预设的设备集群中,确定当前是否存在已加载目标模型的设备;若不存在,从设备集群中确定类型为空闲类型且处于运行状态的设备作为第一目标设备;若存在,从类型为已加载类型且加载了目标模型的设备中,确定第一目标设备。

4、在一个可能的实施方式中,将目标模型加载入第一目标设备中,包括:若第一目标设备的类型为空闲类型,将目标模型的目标模型加载任务的类型设置为普通加载任务类型,并将目标模型加载任务的状态设置为等待状态,开始向第一目标设备加载目标模型;将目标模型加载任务的状态调整为模型加载中状态,并将第一目标设备的状态由运行状态调整为模型加载中状态;响应于目标模型加载成功,将第一目标设备的类型调整为已加载类型,将第一目标设备的状态调整为运行状态,并将目标模型加载任务的状态调整为任务加载完成状态。

5、在一个可能的实施方式中,在开始向第一目标设备加载目标模型之后,还包括:响应于目标模型加载失败,将加载任务类型调整为任务加载失败状态,并向调用请求的发送端发送加载失败提示信息。

6、在一个可能的实施方式中,从预设的设备集群中,确定可加载目标模型的第一目标设备,包括:确定目标模型对应的模型加载任务队列中包含的模型加载任务数量是否达到预设任务数量;若达到预设任务数量,确定加载目标模型的设备的数量是否达到预设设备数量;若未达到预设设备数量,从设备集群中,确定设备类型为空闲类型且设备状态为运行状态的设备为第一目标设备;若达到预设设备数量,从已加载目标模型的设备中,确定第一目标设备。

7、在一个可能的实施方式中,将目标模型加载入第一目标设备中,包括:若加载目标模型的设备的数量未达到预设设备数量,将目标模型的目标模型加载任务的类型设置为临时加载任务类型,并将目标模型加载任务的状态设置为等待状态,开始向第一目标设备加载目标模型;将目标模型加载任务的状态调整为模型加载中状态,并将第一目标设备的状态由运行状态调整为模型加载中状态;响应于目标模型加载成功,将第一目标设备的类型调整为临时设备类型,将第一目标设备的状态调整为运行状态,并将目标模型加载任务的状态调整为任务加载完成状态;响应于目标模型加载失败,将第一目标设备的状态调整为运行状态,并将目标模型加载任务的状态调整为任务加载失败状态。

8、在一个可能的实施方式中,在响应于目标模型加载成功,将第一目标设备的类型调整为临时设备类型,将第一目标设备的状态调整为运行状态,并将目标模型加载任务的状态调整为任务加载完成状态之后,方法还包括:若模型加载任务队列中包含的模型加载任务数量未达到预设任务数量,将第一目标设备的类型调整为空闲类型。

9、在一个可能的实施方式中,在将目标模型加载入第一目标设备中之后,方法还包括:生成用于关联第一目标设备和目标模型的第一标识信息,并设置标识信息的有效期为预设时长;将标识信息发送至调用请求的发送端。

10、在一个可能的实施方式中,在设置标识信息的有效期为预设时长之后,该方法还包括:若与第一目标设备关联的第一标识信息均已过期,将第一目标设备的类型由已加载类型调整为空闲类型。

11、在一个可能的实施方式中,在接收对目标模型的调用请求之前,该方法还包括:根据预加载策略,从设备集群中,确定可加载目标模型的预设数量个设备,并将目标模型加载入预设数量个第二目标设备中;生成用于关联预设数量个设备和目标模型的第二标识信息,并设置标识信息的有效期为永久有效。

12、第二方面,本技术实施例提供一种双策略模型调用装置,该装置包括:接收模块,用于接收对目标模型的调用请求;第一确定模块,用于根据调用请求,确定目标模型对应的加载策略;第二确定模块,用于若加载策略为按需加载策略,从预设的设备集群中,确定可加载目标模型的第一目标设备,并将目标模型加载入第一目标设备中;第三确定模块,用于若加载策略为预加载策略,从设备集群中,确定预先加载了目标模型的预设数量个设备;第四确定模块,用于从预设数量个设备中确定第二目标设备;处理模块,用于响应于接收到调用请求的发送端发送的待处理数据,利用第一目标设备或第二目标设备上的目标模型,对待处理数据进行处理。

13、第三方面,本技术实施例提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行存储器中存储的计算机程序,且计算机程序被执行时,实现本技术上述第一方面的双策略模型调用方法中任一实施例的方法。

14、第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现如上述第一方面的双策略模型调用方法中任一实施例的方法。

15、第五方面,本技术实施例提供一种计算机程序,计算机程序包括计算机可读代码,当计算机可读代码在设备上运行时,使得该设备中的处理器实现如上述第一方面的双策略模型调用方法中任一实施例的方法。

16、本技术实施例提供的双策略模型调用方法、装置、电子设备及计算机可读存储介质,通过接收对目标模型的调用请求,根据调用请求,确定目标模型对应的加载策略,若为按需加载策略,从预设的设备集群中,确定可加载目标模型的第一目标设备,并将目标模型加载入第一目标设备中,若为预加载策略,从设备集群中,确定预先加载了目标模型的预设数量个设备,并从中确定第二目标设备,最后利用第一目标设备或第二目标设备上的目标模型,对待处理数据进行处理。本技术实施例实现了在有限的设备资源中,设置两种模型加载策略,对于模型数量较多的业务,使用按需加载策略,即实时加载当前调用的模型;对于模型数量较少的业务,使用预加载策略,即预先将待调用的模型加载到设备中,从而实现了支持两种不同的业务类型,既提高了包含多个模型的业务的资源利用率,又提高了包含较少模型的响应速度,同时扩展了本方案的适用场景。


技术特征:

1.一种双策略模型调用方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从预设的设备集群中,确定可加载所述目标模型的第一目标设备,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述目标模型加载入所述第一目标设备中,包括:

4.根据权利要求3所述的方法,其特征在于,在所述开始向所述第一目标设备加载所述目标模型之后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述从预设的设备集群中,确定可加载所述目标模型的第一目标设备,包括:

6.根据权利要求5所述的方法,其特征在于,所述将所述目标模型加载入所述第一目标设备中,包括:

7.根据权利要求6所述的方法,其特征在于,在所述响应于所述目标模型加载成功,将所述第一目标设备的类型调整为临时设备类型,将所述第一目标设备的状态调整为运行状态,并将所述目标模型加载任务的状态调整为任务加载完成状态之后,所述方法还包括:

8.根据权利要求1所述的方法,其特征在于,在所述将所述目标模型加载入所述第一目标设备中之后,所述方法还包括:

9.根据权利要求8所述的方法,其特征在于,在所述设置所述标识信息的有效期为预设时长之后,所述方法还包括:

10.根据权利要求1所述的方法,其特征在于,在所述接收对目标模型的调用请求之前,所述方法还包括:

11.一种双策略模型调用装置,其特征在于,所述装置包括:

12.一种电子设备,其特征在于,包括:


技术总结
本申请实施例涉及一种双策略模型调用方法、装置、电子设备及存储介质,该方法包括:接收对目标模型的调用请求;根据调用请求,确定目标模型对应的加载策略;若加载策略为按需加载策略,从预设的设备集群中,确定可加载目标模型的第一目标设备,并将目标模型加载入第一目标设备中;若加载策略为预加载策略,从设备集群中,确定预先加载了目标模型的预设数量个设备;从预设数量个设备中确定第二目标设备;响应于接收到调用请求的发送端发送的待处理数据,利用第一目标设备或第二目标设备上的目标模型,对待处理数据进行处理。本申请实施例既提高了包含多个模型的业务的资源利用率,又提高了包含较少模型的响应速度,同时扩展了本方案的适用场景。

技术研发人员:吴警
受保护的技术使用者:北京奇艺世纪科技有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-25580.html