本说明书涉及数据工程,尤其涉及一种数据管理平台及数据管理方法、装置、介质及设备。
背景技术:
1、数据管理平台包含有数据存储、数据清洗、数据转换、数据计算、数据分析等功能,因此,数据管理平台在多个领域中被广泛应用,例如:在产品开发领域中,用户可以通过数据管理平台分析消费者行为、市场趋势等,以帮助用户制定更精准的市场策略。再例如:在风险管理领域中,用户可以通过数据管理平台分析历史数据和实时数据,以识别潜在风险,如:信贷风险评估、供应链风险预警等,从而帮助用户采取预防措施。
2、通常情况下,数据管理平台在进行数据处理时,可以将所有数据处理视为流处理,即使对于历史数据的处理也是通过流处理引擎重放数据流来完成,从而实现了流处理和批处理的统一,简化了系统复杂度并降低了维护成本。其中,流处理即为数据处理任务一旦产生就被即时执行,从而可以提升数据处理任务的实时性和连续性,通常用于处理高频率、持续产生的数据处理任务。批处理即为在特定时间周期内收集并存储各数据处理任务,作为一个批次,进而针对一个批次内的所有数据处理任务进行统一处理,通常用于处理历史数据或者静态数据集合。
3、虽然数据管理平台可以将所有数据处理均视为流处理,从而可以简化系统复杂度,但是,当需要进行数据回溯时(即,需要处理历史数据或者对大批量数据进行重新计算时),就会在短时间内导致对计算资源的需求量增加,从而对数据管理平台的计算引擎的运行造成极大的影响。
4、因此,如何提升数据管理平台的数据回溯能力,则是一个亟待解决的问题。
技术实现思路
1、本说明书提供一种数据管理平台及数据管理方法、装置、介质及设备,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供了一种数据管理平台,所述数据管理平台包括:执行模块、第一存储模块、第二存储模块,所述执行模块中设置有第一数据链路和第二数据链路,所述第一数据链路和所述第二数据链路主要由各数据处理层组成;
4、所述数据管理平台通过所述执行模块,接收目标代码,并按照在所述第一数据链路中各数据处理层之间的顺序,运行各数据处理层,以得到所述目标代码对应的执行结果,其中,针对每个数据处理层,运行该数据处理层,以使该数据处理层向所述第一存储模块发送数据获取请求,以获取该数据处理层对应的待处理数据,并将经过该数据处理层处理后的数据作为中间执行结果发送到所述第一存储模块进行存储,以作为下一层数据处理层对应的待处理数据,并将所述中间执行结果发送到所述第二存储模块进行存储;以及
5、在确定需要执行针对所述目标代码的回溯操作时,通过所述第二数据链路中的各数据处理层,向所述第二存储模块发送历史数据获取请求,以从所述第二存储模块中获取执行所述目标代码所需处理的历史数据,并对所述历史数据进行处理,得到处理后的历史数据,所述历史数据是所述目标代码在执行过程中产生的中间执行结果。
6、可选地,所述数据管理平台还包括:服务模块;
7、所述数据管理平台通过所述服务模块根据用户在预设的任务界面中所执行的配置操作,生成配置指令,并根据所述配置指令,确定所述用户输入的原始代码,将所述原始代码转换为指定格式,得到所述目标代码,并将所述目标代码发送给所述执行模块。
8、可选地,所述数据管理平台通过所述服务模块根据所述配置指令,确定所述用户输入的原始代码以及所述原始代码对应的数据处理策略;
9、若确定所述原始代码对应的数据处理策略为第一数据处理策略,则根据所述第一数据处理策略对应的代码格式,对所述原始代码进行转换,得到转换后的原始代码,作为目标代码,并将所述目标代码发送给所述执行模块,所述第一数据处理策略用于对持续不断产生的每条数据进行流处理;
10、所述执行模型用于接收所述目标代码,并通过所述第一数据链路中的所述各数据处理层,执行所述目标代码对应的数据处理任务,得到所述目标代码对应的执行结果。
11、可选地,所述数据管理平台通过所述服务模块根据所述配置指令,确定所述用户输入的原始代码以及所述原始代码对应的数据处理策略;
12、若确定所述原始代码对应的数据处理策略为第二数据处理策略,则根据所述第二数据处理策略对应的代码格式,对所述原始代码进行转换,得到转换后的原始代码,作为批处理代码,并将所述批处理代码发送给所述执行模块,所述第二数据处理策略用于对指定数据集中的数据进行批处理,所述指定数据集中包含的数据的数量不变;
13、所述执行模型用于接收所述批处理代码,并通过所述第二数据链路中的所述各数据处理层,执行所述批处理代码对应的数据处理任务,得到所述批处理代码对应的执行结果。
14、可选地,所述数据管理平台还包括:调度模块;
15、所述数据管理平台通过所述服务模块在确定所述原始代码对应的数据处理策略为第二数据处理策略时,将所述批处理代码发送至所述调度模块;
16、通过所述调度模块在确定接收到的批处理代码满足预设的批处理条件时,将接收到的批处理代码发送到所述执行模块。
17、可选地,所述数据管理平台还包括:分析模块;
18、所述数据管理平台通过所述执行模块将所述目标代码对应的执行结果发送到所述分析模块;以及
19、将所述批处理代码对应的执行结果发送到所述分析模块;
20、通过所述分析模块接收所述目标代码对应的执行结果,以及,所述批处理代码对应的执行结果,并按照预设的各维度,对所述目标代码对应的执行结果和所述批处理代码对应的执行结果进行重组处理,得到重组后的执行结果,所述各维度包括:时间、地理位置、数据类别、用户群体。
21、可选地,所述数据管理平台还包括:异常检测模块;
22、所述数据管理平台通过所述异常检测模块从所述执行模块在执行所述目标代码时所运行的各数据处理层中确定出至少一个数据处理层,作为目标数据处理层,获取所述目标数据处理层对应的待处理数据,并根据预设的异常检测规则对所述目标数据处理层对应的待处理数据进行检测,得到所述目标数据处理层对应的检测结果,所述异常检测规则是预先根据所述执行模块对应的历史数据确定的。
23、可选地,所述第一存储模块和所述第二存储模块中使用相同的逻辑存储层。
24、本说明书提供了一种数据管理方法,所述方法应用于数据管理平台的执行模块,所述数据管理平台包括:执行模块、第一存储模块、第二存储模块,所述执行模块中设置有第一数据链路和第二数据链路,所述第一数据链路和所述第二数据链路主要由各数据处理层组成,所述方法包括:
25、接收目标代码;
26、按照在所述第一数据链路中各数据处理层之间的顺序,运行各数据处理层,以得到所述目标代码对应的执行结果,其中,针对每个数据处理层,运行该数据处理层,以使该数据处理层向所述第一存储模块发送数据获取请求,以获取该数据处理层对应的待处理数据,并将经过该数据处理层处理后的数据作为中间执行结果发送到所述第一存储模块进行存储,以作为下一层数据处理层对应的待处理数据,并将所述中间执行结果发送到所述第二存储模块进行存储;以及
27、在确定需要执行针对所述目标代码的回溯操作时,通过所述第二数据链路中的所述各数据处理层,向所述第二存储模块发送历史数据获取请求,以从所述第二存储模块中获取执行所述目标代码所需处理的历史数据,并对所述历史数据进行处理,得到处理后的历史数据,所述历史数据是所述目标代码在执行过程中产生的中间执行结果。
28、本说明书提供了一种数据管理装置,所述装置包括:
29、接收模块,用于接收目标代码;
30、第一执行模块,用于按照在所述第一数据链路中各数据处理层之间的顺序,运行各数据处理层,以得到所述目标代码对应的执行结果,其中,针对每个数据处理层,运行该数据处理层,以使该数据处理层向所述第一存储模块发送数据获取请求,以获取该数据处理层对应的待处理数据,并将经过该数据处理层处理后的数据作为中间执行结果发送到所述第一存储模块进行存储,以作为下一层数据处理层对应的待处理数据,并将所述中间执行结果发送到第二存储模块进行存储;以及
31、第二执行模块,用于在确定需要执行针对所述目标代码的回溯操作时,通过所述第二数据链路中的所述各数据处理层,向所述第二存储模块发送历史数据获取请求,以从所述第二存储模块中获取执行所述目标代码所需处理的历史数据,并对所述历史数据进行处理,得到处理后的历史数据,所述历史数据是所述目标代码在执行过程中产生的中间执行结果。
32、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据管理方法。
33、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据管理方法。
34、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
35、在本说明书提供的数据管理平台中,数据管理平台通过执行模块,接收目标代码,并按照在第一数据链路中各数据处理层之间的顺序,运行各数据处理层,以得到目标代码对应的执行结果,其中,针对每个数据处理层,运行该数据处理层,以使该数据处理层向第一存储模块发送数据获取请求,以获取该数据处理层对应的待处理数据,并将经过该数据处理层处理后的数据作为中间执行结果发送到第一存储模块进行存储,以作为下一层数据处理层对应的待处理数据,并将中间执行结果发送到所述第二存储模块进行存储,以及,在确定需要执行针对目标代码的回溯操作时,通过第二数据链路中的各数据处理层,向第二存储模块发送历史数据获取请求,以从第二存储模块中获取执行目标代码所需处理的历史数据,并对历史数据进行处理,得到处理后的历史数据,这里的历史数据是目标代码在执行过程中产生的中间执行结果。
36、从上述方法可以看出,数据管理平台可以通过将第一存储模块作为消息中间件使用,以便于执行模块在执行目标代码的过程中读写数据,并可以将第二存储模块作为用于存储批量的历史数据的数据湖来使用,从而可以通过在执行模块的第一数据链路在执行目标代码的过程中,将经过各数据处理层处理后的中间执行结果保存到第二存储模块中,以在需要针对目标代码执行回溯操作时,通过单独的数据链路来从第二存储模块中获取在经过第一数据链路的各数据处理层处理后的中间执行结果来进行回溯操作,进而可以避免执行回溯操作对于执行实时数据处理操作的影响,以提升数据管理平台的数据回溯能力。
1.一种数据管理平台,其特征在于,所述数据管理平台包括:执行模块、第一存储模块、第二存储模块,所述执行模块中设置有第一数据链路和第二数据链路,所述第一数据链路和所述第二数据链路主要由各数据处理层组成;
2.如权利要求1所述的数据管理平台,其特征在于,所述数据管理平台还包括:服务模块;
3.如权利要求2所述的数据管理平台,其特征在于,所述数据管理平台通过所述服务模块根据所述配置指令,确定所述用户输入的原始代码以及所述原始代码对应的数据处理策略;
4.如权利要求2所述的数据管理平台,其特征在于,所述数据管理平台通过所述服务模块根据所述配置指令,确定所述用户输入的原始代码以及所述原始代码对应的数据处理策略;
5.如权利要求4所述的数据管理平台,其特征在于,所述数据管理平台还包括:调度模块;
6.如权利要求4所述的数据管理平台,其特征在于,所述数据管理平台还包括:分析模块;
7.如权利要求1所述的数据管理平台,其特征在于,所述数据管理平台还包括:异常检测模块;
8.如权利要求1所述的数据管理平台,其特征在于,所述第一存储模块和所述第二存储模块中使用相同的逻辑存储层。
9.一种数据管理方法,其特征在于,所述方法应用于数据管理平台的执行模块,所述数据管理平台包括:执行模块、第一存储模块、第二存储模块,所述执行模块中设置有第一数据链路和第二数据链路,所述第一数据链路和所述第二数据链路主要由各数据处理层组成,所述方法包括:
10.一种数据管理装置,其特征在于,所述装置包括:
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求9所述的方法。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求9所述的方法。
