HPC系统以及任务处理方法与流程

专利2025-10-09  5


本发明涉及计算机,尤其涉及一种hpc系统以及任务处理方法。


背景技术:

1、高性能计算(hpc,high performance computing)是一种使用并行工作的强大处理器集群来处理海量多维数据集(大数据)且以极高速度解决复杂问题的技术,hpc系统通常包括由多个联网的高速计算机服务器组成的计算机集群(即hpc集群),在多个计算节点上同时运行多个任务,实现大规模并行计算,进而实现更快的运行速度。

2、然而,目前的hpc系统无法实现多个不同用户之间的数据隔离,一般仅供单个用户使用,这一方面无法实现资源的最大化利用,另一方面对于某些条件有限的用户而言,难以独立承担hpc系统的成本,因此,期望hpc系统能提供类似公有云服务一样的可以租赁的服务。


技术实现思路

1、针对上述现有技术的不足,本发明的目的在于提供一种hpc系统任务处理方法,以支持多用户使用hpc系统,提供可以租赁的hpc服务。

2、为了实现上述目的,本发明采用以下技术方案:

3、一种hpc系统,包括内容管理平台、认证模块、数据库和hpc控制模块,且所述内容管理平台提供操作界面,其中:

4、所述数据库用于存储数据,所述数据包括各用户对应的用户信息、各用户购买的有效资源总量、各用户已使用的资源量以及各用户对应的配额要求;

5、所述内容管理平台用于通过所述操作界面接收用户提交的携带用户信息的登录请求,并基于所述登录请求向所述认证模块发送用户认证请求,以使所述认证模块对所述用户认证请求进行验证,当验证成功时,向所述内容管理平台发送授权token;

6、所述内容管理平台还用于通过所述操作界面接收用户提交的任务请求,并将所述授权token与所述任务请求发送至所述hpc控制模块,所述hpc控制模块用于基于所述授权token与所述任务请求向所述认证模块发送任务认证请求,以使所述认证模块对所述任务认证请求进行验证,并向所述hpc控制模块反馈验证结果,当验证成功时,所述hpc控制模块用于判断所述任务请求是否符合所述用户对应的配额要求、所述任务请求需要的资源量是否不超过用户购买的有效资源总量与用户已使用的资源量之差,若均是,则执行与所述任务请求对应的任务。

7、进一步地,各用户已使用的资源量通过所述hpc控制模块统计后,存储于所述数据库中,所述资源包括存储资源及算力资源,所述算力资源包括gpu资源包和cpu资源包。

8、进一步地,各用户对应的配额要求包括:用户能够使用的最大gpu卡数、单任务运行最大gpu卡数、单任务运行最大实例数、最大运行任务数、单任务允许运行时长。

9、进一步地,所述hpc控制模块包括控制器以及与所述控制器连接的调度器管理单元、存储管理单元和用户管理单元;

10、所述调度管理单元与若干调度器相连,并用于对若干所述调度器的任务调度进行管理,各所述调度器分别用于将待执行的任务拆分多个子任务后,再调度不同的计算节点来执行各子任务,并将执行结果汇总;

11、所述存储管理单元用于进行数据存储管理;

12、所述用户管理单元用于进行用户管理;

13、所述控制器用于根据所述任务请求,控制所述调度器管理单元、存储管理单元或用户管理单元执行相应操作。

14、进一步地,所述内容管理平台还用于通过所述操作界面接收用户提交的用户创建请求,并从所述认证模块中获取与所述用户创建请求中携带的用户信息对应的授权token,而后向所述hpc控制模块发送所述用户创建请求和所述授权token;

15、所述hpc控制模块还用于将所述用户创建请求和所述授权token发送至所述认证模块进行验证,当验证成功时,所述hpc控制模块还用于调用所述内容管理平台进行用户创建,并在所述调度器管理单元、存储管理单元中进行用户注册。

16、进一步地,所述内容管理平台还用于在接收到所述用户创建请求时,将所述用户创建请求中携带的用户信息存储到所述数据库中。

17、进一步地,所述hpc控制模块在执行完与所述任务请求对应的任务后,还用于通过所述内容管理平台提供的操作界面反馈执行结果。

18、进一步地,所述系统还包括与所述控制模块连接的登录节点,其中所述登录节点部署有console-agent服务。

19、进一步地,所述内容管理平台通过conductor模块与所述数据库相连;所述调度器包括slurm调度器及/或openpbs调度器。

20、第二方面,本发明提供一种基于前述hpc系统的任务处理方法,包括:

21、当所述内容管理平台通过所述操作界面接收用户提交的登录请求时,基于所述登录请求向所述认证模块发送用户认证请求,以使所述认证模块对所述用户认证请求进行验证,当验证成功时,向所述内容管理平台发送授权token;

22、当所述内容管理平台通过所述操作界面接收用户提交的任务请求时,将所述授权token与所述任务请求发送至所述hpc控制模块,所述hpc控制模块用于基于所述授权token及所述任务请求向所述认证模块发送任务认证请求,以使所述认证模块对所述任务认证请求进行验证,当验证成功时,通过所述hpc控制模块判断所述任务请求是否符合所述用户对应的配额要求、所述任务请求需要的资源量是否不超过用户购买的有效资源总量与用户已使用的资源量之差,若均是,则执行与所述任务请求对应的任务。

23、通过采用上述技术方案,本发明具有以下有益效果:

24、本发明通过采用上述内容管理平台、认证模块、数据库和hpc控制模块,可以将hpc系统租赁给多个用户,并保证不同用户之间的数据隔离,从而能够在hpc系统充分使用的情况下,有效保护每个用户的隐私和数据安全。



技术特征:

1.一种hpc系统,其特征在于,包括内容管理平台、认证模块、数据库和hpc控制模块,且所述内容管理平台提供操作界面,其中:

2.如权利要求1所述的hpc系统,其特征在于,各用户已使用的资源量通过所述hpc控制模块统计后,存储于所述数据库中,所述资源包括存储资源及算力资源,所述算力资源包括gpu资源包和cpu资源包。

3.如权利要求2所述的hpc系统,其特征在于,各用户对应的配额要求包括:用户能够使用的最大gpu卡数、单任务运行最大gpu卡数、单任务运行最大实例数、最大运行任务数、单任务允许运行时长。

4.如权利要求1所述的hpc系统,其特征在于,所述hpc控制模块包括控制器以及与所述控制器连接的调度器管理单元、存储管理单元和用户管理单元;

5.如权利要求4所述的hpc系统,其特征在于,所述内容管理平台还用于通过所述操作界面接收用户提交的用户创建请求,并从所述认证模块中获取与所述用户创建请求中携带的用户信息对应的授权token,而后向所述hpc控制模块发送所述用户创建请求和所述授权token;

6.如权利要求5所述的hpc系统,其特征在于,所述内容管理平台还用于在接收到所述用户创建请求时,将所述用户创建请求中携带的用户信息存储到所述数据库中。

7.如权利要求1所述的hpc系统,其特征在于,所述hpc控制模块在执行完与所述任务请求对应的任务后,还用于通过所述内容管理平台提供的操作界面反馈执行结果。

8.如权利要求1所述的hpc系统,其特征在于,所述系统还包括与所述控制模块连接的登录节点,其中所述登录节点部署有console-agent服务。

9.如权利要求1所述的hpc系统,其特征在于,所述内容管理平台通过conductor模块与所述数据库相连;所述调度器包括slurm调度器及/或openpbs调度器。

10.一种基于前述权利要求1-9中任一项所述的hpc系统的任务处理方法,包括:


技术总结
本发明提供一种HPC系统以及任务处理方法,其中,该HPC系统包括内容管理平台、认证模块、数据库和HPC控制模块,内容管理平台用于接收登录请求,并向认证模块发送用户认证请求,以使认证模块进行验证,当验证成功时向内容管理平台发送授权token;内容管理平台还用于接收任务请求,并将授权token与任务请求发送至HPC控制模块,HPC控制模块用于基于授权token与任务请求向认证模块发送任务认证请求,以使认证模块进行验证,当验证成功时,HPC控制模块用于判断任务请求是否符合配额要求、需要的资源量是否不超过用户购买的有效资源总量与已使用的资源量之差,若均是,则执行与任务请求对应的操作。本发明能够提供类似公有云服务一样的可以租赁的HPC服务。

技术研发人员:安柯,郑力,周麟辉
受保护的技术使用者:上海有孚网络股份有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-27248.html