本发明涉及关联数据源跨数据层库和表的数据质量检测方法、系统,属于数据治理。
背景技术:
1、在实际应用中设计数据质量检测方法和系统,应充分考虑数据治理策略能够覆盖多数应用场景业务逻辑和数据特性,能够随着业务发展和数据变化而灵活调整检测任务和指标,确保数据质量检测的持续有效性和适应性,避免一刀切的治理方式。当前,数据质量检测方法和系统大多针对单一数据来源或者目标表进行检测,未充分考虑针对多个数据源在不同质检层创建通用质检表进行质检和清洗转换的批量质检需求,未能有效解决针对多个目标字段的质检需求差异而应用相同的质量检测指标并赋予不同的权重。数据质量检测方法往往聚焦于指标应用的多样性,难以提供一个深入且细致的针对字段数据质量检测方法,以覆盖所有关键的数据质量维度。当前,缺乏相关的字段质量权重计算和检测的技术方案。对于如何调节单个字段质量指标应用在不同字段上的权重设置,以及针对单个字段的权重设置是否会影响该字段质量指标应用在整个数据质量检测的效果,是否应该控制字段指标权重调节区间的取值范围来获得有效的质量检测结果等都没有明确的技术论证和实验证明。
技术实现思路
1、针对上述问题,本发明提供了关联数据源跨数据层库和表的数据质量检测方法、系统,本发明避免了单一权重分配方式可能带来的偏差,解决了数据质量检测中关联数据源选取多个数据层中字段进行批量检测时进行灵活配置数据质量检测指标和权重的问题;本发明方法能够较为全面和灵活实现数据表整体和精确到字段级别的质量检测;本发明系统能支持对多个数据源和不同数据层的数据进行处理。
2、本发明的技术方案是:第一方面,本发明提供关联数据源跨数据层库和表的数据质量检测方法,所述方法包括:
3、s1、进行数据质量检测指标配置:设置表质量检测指标和字段质量检测指标,并进行表质量检测指标和字段质量检测指标校验;
4、s2、发起单次批量数据质量检测任务,从多个数据源中抽取并选择不同的数据层对表和表中的字段进行关联;对通用质检表进行表质量检测指标权重配置,再对通用质检表中所有选中字段进行字段质量检测指标的不同权重配置;
5、s3、设置数据质量检测定时任务,根据设置好的定时任务进行批量数据质量检测任务,得到数据质量检测报告。
6、作为本发明的进一步方案,所述s1中,所述数据质量检测指标配置包括对描述表质量检测指标和字段质量检测指标进行命名和指标写入的配置操作;
7、对表质量检测指标的命名包括:“是否是维度表”、“是否存在关联数据”、“数据表名是否符合规范”;
8、其中,“是否是维度表”需检测一张表中的字段是否是一对一的关系;“是否存在关联数据”需检测表中是否存在可以进行跨表关联分析的字段,提前设定好数据质量检测表内需要用于数据关联的字段;
9、对字段质量检测指标的命名包括:“重复值检查”、“是否存在空值”、“字段命名是否符合规范”、“值域检验”;
10、其中,“值域检验”是检测使用码值替代实际值的字段,如果存在不属于值域的异常值,生成整改任务让数源单位确认异常值含义,并补充到码表;
11、基于表和字段两个维度更新和维护数据质量检测指标,设定每个指标对应的质量指标,并将质量指标写入后台;依据每个数据质量检测指标设定指标对应任务属性,最终依据检测结果生成对应的数据质量运维任务和数据质量整改任务。
12、作为本发明的进一步方案,所述s2中,所述发起单次批量数据质量检测任务时,选择多个质检数据层,同步选取多个数据库和数据表对应到每一个数据层,在每一个数据层将选中的多个数据表通过数据映射规则合并形成通用质检表,通用质检表存在于选取的多个质检数据层中;进而单次质量检测任务针对不同层存储的同一份通用质检表数据进行质量检测,每一层配置不同表质量检测指标和字段质量检测指标,并对每个质量检测指标设置权重;质检数据层命名包括数据细节层dwd、数据中间层dwm、数据服务层dws、数据应用层ads,在实际质量检测中依据治理需要创建通用质检表在质检数据层并进行命名,相同的数据会被存储在不同的质检数据层用于不同的清洗和质检任务。
13、作为本发明的进一步方案,所述s2在单次批量数据质量检测任务中,对通用质检表中所有选中字段进行字段质量检测指标qa的权重配置时,字段质量检测指标qa被应用在多个不同字段中进行检测的配置方式为:字段质量检测指标qa出现在多个字段中的权重为所有出现数量权重累乘,wa=wa1wa2wa3…wak...wan;wa的具体计算公式为:wa =,m为单个字段质量检测指标被应用在多个不同字段中检测时进行权重设置的数量之和;
14、同一个字段质量检测指标被应用到不同字段并被赋予不同权重,任意一个字段质量检测指标qa出现在一个字段中的权重为wan=,wan为小数,0<wan<1,单次批量数据质量检测任务中,n为每个字段应用的字段质量检测指标的数量之和,x为每个字段质量检测指标权重取值调整区间,-1<x<1;针对同一字段配置多个字段质量检测指标的权重设置,满足所有字段质量检测指标权重之和为1。
15、作为本发明的进一步方案,所述s2在单次批量数据质量检测任务中,对通用质检表进行表质量检测指标权重配置时,一次任务中通用质检表配置表对表质量检测指标q1到qn赋予对应权重w1到wn,字段质量检测指标多次应用在不同选择字段上,一次任务中通用质检表基于字段1到字段n进行质检。
16、作为本发明的进一步方案,所述s3中,所述数据质量检测报告包括质量检测编号、检测时间、检测数据层、检测数据库、涉及数据字段和数源单位名称明细信息;数据质量检测报告列明所检测的所有数据质量指标,依据各数据质量指标的算数平均计算出单个数据质量指标检测得分,最终数据质量检测报告总分为各指标加权平均计算得出。
17、第二方面,本发明提供关联数据源跨数据层库和表的数据质量检测系统,包括:
18、数据质量检测指标配置模块:用于设置表质量检测指标和字段质量检测指标,并进行表质量检测指标和字段质量检测指标校验;
19、数据质量检测指标管理模块:用于发起单次批量数据质量检测任务,从多个数据源中抽取并选择不同的数据层对表和表中的字段进行关联;对通用质检表进行表质量检测指标权重配置,再对通用质检表中所有选中字段进行字段质量检测指标的不同权重配置;
20、数据质量检测模块:用于设置数据质量检测定时任务,根据设置好的定时任务进行批量数据质量检测任务,得到数据质量检测报告。
21、作为本发明的进一步方案,所述数据质量报告的得分g= ;其中,表示批量检测中单个字段质量检测指标的得分;表示批量检测中单个字段质量检测指标的得分,表示批量检测中单个字段质量检测指标的得分,n为一次批量数据质量检测任务应用的字段质量检测指标数量之和。
22、第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的方法的步骤。
23、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法的步骤。
24、本发明的有益效果是:
25、1、本发明设计针对同一数据质量检测指标应用在多个字段进行批量检测的数据质量权重计算公式,同一字段数据质量检测指标可以被赋予不同权重,通过合理调节同一字段质量检测指标在不同字段间应用的权重,影响该字段质量指标最终得分;现有的方法中并未考虑数据质量检测中对于多个字段灵活配置数据质量检测指标和调整权重的问题;本发明中质量检测报告针对单个指标权重设置生成单项指标得分和整个质量检测任务加权平均总体得分,生成的质量检测报告满足从局部到整体对质检数据进行评估,局部体现为报告通过单项质量检测指标得分作为单一维度评估数据质量,整体体现为报告对所有质量检测指标采用加权平均计算总体得分来对数据进行评估;
26、2、本发明中批量质检任务可以选择数据层关联多个数据源库和表,满足合并多张表数据为一个通用质检表存储在不同质检层,解决了数据质量检测中同一批数据跨单位质检存在要求差异和按照不同指标清洗转换处理难的问题,采取上述数据分层批量质检的方法极大提升了数据质量检测的效率和易用性;
27、3、本发明中区分了表质量检测指标和字段质量检测指标,针对具体指标设定对应质量运维和整改属性,满足质量检测完成后低于系统设置质检分数阀值的指标对应数据自动生成质量整改和运维任务;提供灵活可配置的数据质量检测指标管理和指标写入形式,能够适应不同行业、不同业务场景的数据质量管理需求;
28、4、本方法和系统生成的数据质量检测报告,对低于质量检测阀值得分的质检任务指标数据生成预警数据列表,满足数据治理人员依据具体预警指标进行精准的数据质量运维处置,同时依据数源单位展示预警列表数据和各数源单位数据质量检测排名,能及时督促数源单位进行数据质量整改和反馈,有助于数据治理人员动态监控数据质量异常指标和通过质量检测任务与数源单位建立数据更新和质量提升管理机制;
29、5、本发明能够较为全面和灵活实现数据表整体和精确到字段级别的质量检测;数据质量检测系统支持对多个数据源和不同数据层的数据进行处理。
30、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
1.关联数据源跨数据层库和表的数据质量检测方法,其特征在于:所述方法包括:
2.根据权利要求1所述的关联数据源跨数据层库和表的数据质量检测方法,其特征在于:所述s1中,所述数据质量检测指标配置包括对描述表质量检测指标和字段质量检测指标进行命名和指标写入的配置操作;
3.根据权利要求1所述的关联数据源跨数据层库和表的数据质量检测方法,其特征在于:所述s2中,所述发起单次批量数据质量检测任务时,选择多个质检数据层,同步选取多个数据库和数据表对应到每一个数据层,在每一个数据层将选中的多个数据表通过数据映射规则合并形成通用质检表,通用质检表存在于选取的多个质检数据层中;进而单次质量检测任务针对不同层存储的同一份通用质检表数据进行质量检测,每一层配置不同表质量检测指标和字段质量检测指标,并对每个质量检测指标设置权重;质检数据层命名包括数据细节层dwd、数据中间层dwm、数据服务层dws、数据应用层ads。
4.根据权利要求1所述的关联数据源跨数据层库和表的数据质量检测方法,其特征在于:所述s2在单次批量数据质量检测任务中,对通用质检表进行表质量检测指标权重配置时,一次任务中通用质检表配置表对表质量检测指标q1到qn赋予对应权重w1到wn,字段质量检测指标多次应用在不同选择字段上,一次任务中通用质检表基于字段1到字段n进行质检。
5.根据权利要求1所述的关联数据源跨数据层库和表的数据质量检测方法,其特征在于:所述s3中,所述数据质量检测报告包括质量检测编号、检测时间、检测数据层、检测数据库、涉及数据字段和数源单位名称明细信息;数据质量检测报告列明所检测的所有数据质量指标,依据各数据质量指标的算数平均计算出单个数据质量指标检测得分,最终数据质量检测报告总分为各指标加权平均计算得出。
6.关联数据源跨数据层库和表的数据质量检测系统,其特征在于,包括:
7.根据权利要求6所述的关联数据源跨数据层库和表的数据质量检测系统,其特征在于,所述数据质量报告的得分g= ;
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序 ,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法的步骤。