本说明书涉及数据质量检测,尤其涉及一种基于业务场景的数据质量检测方法、设备及介质。
背景技术:
1、数据质量是指数据在满足业务需求和决策支持方面的适用性、准确性、完整性、一致性、及时性和可靠性等特征的程度。它涵盖了从数据采集、处理、存储到应用的全过程,确保数据能够反映真实世界情况,并在各种场景下提供有效信息支持。随着数字化服务在各个领域的应用数量、质量及频率的大幅上升,如社交网络、电子商务等,企业需要通过收集和处理大量的数据来提供个性化服务、优化产品体验和增强市场竞争力。当处理的数据量达到一定量级(10亿条或者100gb)和系统的复杂度上升(报表数量不段增加)时,传统大数据量的数据质量检测通常采用hive sql执行mapreduce任务的方式,mapreduce作业启动与运行耗时较长,导致数据质量问题的发现和处理效率较低;其次,由于sql查询灵活性受限,复杂的数据质量规则难以有效表达和实施。
2、传统的griffin框架,无法覆盖所有行业或特定业务场景下的复杂数据质量检测需求,用户在面对一些特殊或高度定制化的数据质量检查任务时,需要花费额外的时间和精力通过自行设计和编写相应的scala代码实现质量规则自定义,提高了质量检测的技术门槛。因此,目前的质量检测方法与业务场景相对割裂,需要用户自定义质量规则,降低了检测效率。
技术实现思路
1、本说明书一个或多个实施例提供了一种基于业务场景的数据质量检测方法、设备及介质,用于解决如下技术问题:目前的质量检测方法与业务场景相对割裂,需要用户自定义质量规则,降低了检测效率。
2、本说明书一个或多个实施例采用下述技术方案:
3、本说明书一个或多个实施例提供一种基于业务场景的数据质量检测方法,所述方法包括:确定当前数据质量检测需求对应的当前业务场景信息,以基于所述业务场景信息,确定数据质量检测策略,其中,所述数据质量检测策略包括待检测数据对应的至少一个数据源的数据源连接请求信息和至少一个数据质量规则;通过所述数据质量检测策略,进行质量检测任务配置,以确定对应的数据质量检测任务集合,其中,所述数据质量检测任务集合包括多个数据质量检测子任务;将所述数据质量检测任务集合提交到griffin任务调度系统,通过所述griffin任务调度系统,对所述多个数据质量检测子任务进行任务分发,确定每个所述数据质量检测子任务对应的工作节点;通过每个所述工作节点,执行所述数据质量检测子任务,生成每个所述工作节点对应的质量检测结果,根据所述当前业务场景信息,对所述质量检测结果进行整合,确定数据质量报告。
4、进一步地,基于所述业务场景信息,确定数据质量检测策略,具体包括:获取所述业务场景信息中多种业务数据的业务数据用途信息、业务数据来源信息和预设的至少一个关键数据项;通过所述业务数据来源信息,确定每种业务数据对应数据源的数据源类型,以基于所述数据源类型,确定每个所述数据源的数据源连接请求信息;根据每种业务数据对应的所述业务数据用途信息,确定每种业务数据对应的至少一个数据质量检测规则,其中,所述数据质量检测规则包括完整性度量、一致性度量、准确性度量和有效性度量中的任意一项或多项;通过所述至少一个关键数据项,设置质量检测优先级,确定检测优先级信息,以基于所述数据源连接请求信息、数据质量检测规则和检测优先级信息,确定所述数据质量检测策略。
5、进一步地,通过所述数据质量检测策略,进行质量检测任务配置,以确定对应的数据质量检测任务集合,具体包括:根据所述数据质量检测策略,配置任务参数,以创建对应的数据质量检测任务集合;通过griffin任务调度系统,对所述数据质量检测任务集合进行解析,以分解为多个数据质量检测子任务,其中,所述多个数据质量检测子任务为可独立执行的检测任务,每个所述数据质量检测子任务包括数据源连接请求信息、数据质量规则id和子任务优先级信息。
6、进一步地,通过所述griffin任务调度系统,对所述多个数据质量检测子任务进行任务分发,确定每个所述数据质量检测子任务对应的工作节点,具体包括:通过所述griffin任务调度系统,动态抓取spark大数据计算引擎中每个工作节点对应的当前资源使用信息,其中,所述当前资源使用信息包括当前计算资源数据、当前存储资源数据和当前网络带宽数据;对每个所述数据质量检测子任务进行任务特征分析,确定每个所述数据质量检测子任务对应的资源需求信息和多个所述数据质量检测子任务之间的任务依赖关系;根据多个所述数据质量检测子任务之间的任务依赖关系和每个所述数据质量检测子任务的子任务优先级信息,生成所述多个数据质量检测子任务对应的资源分配顺序;按照所述资源分配顺序,根据每个所述数据质量检测子任务对应的资源需求信息和每个所述工作节点的当前资源使用情况,依次对每个所述数据质量检测子任务进行节点分配,确定每个所述数据质量检测子任务对应的工作节点。
7、进一步地,通过每个所述工作节点,执行所述数据质量检测子任务,生成每个所述工作节点对应的质量检测结果,具体包括:确定每个所述数据质量检测子任务对应的数据源连接请求信息、数据质量规则id和子任务优先级信息;通过预设的数据读取中间层,根据所述数据源连接请求信息,进行数据源对接,以获取待检测数据,其中,所述数据源包括关系型数据源和大数据存储数据源;根据每个所述工作节点,按照所述数据质量规则id,匹配对应的质量检测算法,以对所述待检测数据执行质量检测,生成每个所述工作节点对应的质量检测结果。
8、进一步地,通过每个所述工作节点,执行所述数据质量检测子任务,生成每个所述工作节点对应的质量检测结果之后,所述方法还包括:通过预设的实时监控接口,对每个所述工作节点的子任务执行情况进行监控,采集每个所述工作节点的实时任务执行数据,其中,所述实时任务指定数据包括实时节点资源使用信息和节点任务执行信息;根据每个所述工作节点的实时节点资源使用信息和所述节点任务执行信息,确定每个所述工作节点对应的实时节点任务执行状态;基于每个所述工作节点对应的实时节点任务执行状态,进行任务分发调整。
9、进一步地,根据所述当前业务场景信息,对所述质量检测结果进行整合,确定数据质量报告,具体包括:采集每个所述工作节点的所述质量检测结果,以基于多个所述质量检测结果,进行数据质量汇总,确定汇总结果数据,并确定所述汇总结果数据中的异常数据项的异常类型;通过所述当前业务场景信息和所述异常类型,确定对应的质量结果展示类型;按照所述质量结果展示类型,对所述汇总结果数据进行渲染,构建数据质量问题视图,以确定所述数据质量报告。
10、进一步地,确定当前数据质量检测需求对应的当前业务场景信息,具体包括:在用户的质量检测操作的触发下,向用户端发送质量检测需求对应的业务场景表单,其中,所述业务场景表单包括业务数据类型项、业务数据用途项、业务数据来源项和自定义关键数据项;根据所述业务场景表单,确定当前数据质量检测需求对应的当前业务场景信息,其中,所述当前业务场景信息包括多种业务数据的业务数据用途信息、业务数据来源信息和预设的至少一个关键数据项。
11、本说明书一个或多个实施例提供一种基于业务场景的数据质量检测设备,包括:
12、至少一个处理器;以及,
13、与所述至少一个处理器通信连接的存储器;其中,
14、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
15、本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:执行上述方法。
16、本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过上述技术方案,通过明确当前业务场景信息,可以更加精准地确定需要检测的数据范围和数据质量规则,从而避免无差别的全面检测带来的资源浪费,针对特定业务场景定制的数据质量规则,能有效识别并解决该场景下常见的数据质量问题,提高数据的准确性和可靠性;通过griffin任务调度系统对检测任务进行高效分发和执行,可以迅速生成质量检测结果;基于业务场景定制的数据质量检测策略,可以更加合理地分配检测资源,避免不必要的浪费;对于需要实时检测的数据质量任务,griffin能够迅速响应并分发任务到相应的工作节点,实现近似实时的数据质量监控;通过griffin定义的数据质量规则,可以精确度量数据的精确度、完整性、及时性、唯一性、有效性、一致性等多个维度,确保数据质量的全面监控,提高数据质量检测效率。
1.一种基于业务场景的数据质量检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于业务场景的数据质量检测方法,其特征在于,基于所述业务场景信息,确定数据质量检测策略,具体包括:
3.根据权利要求1所述的一种基于业务场景的数据质量检测方法,其特征在于,通过所述数据质量检测策略,进行质量检测任务配置,以确定对应的数据质量检测任务集合,具体包括:
4.根据权利要求1所述的一种基于业务场景的数据质量检测方法,其特征在于,通过所述griffin任务调度系统,对所述多个数据质量检测子任务进行任务分发,确定每个所述数据质量检测子任务对应的工作节点,具体包括:
5.根据权利要求1所述的一种基于业务场景的数据质量检测方法,其特征在于,通过每个所述工作节点,执行所述数据质量检测子任务,生成每个所述工作节点对应的质量检测结果,具体包括:
6.根据权利要求1所述的一种基于业务场景的数据质量检测方法,其特征在于,通过每个所述工作节点,执行所述数据质量检测子任务,生成每个所述工作节点对应的质量检测结果之后,所述方法还包括:
7.根据权利要求1所述的一种基于业务场景的数据质量检测方法,其特征在于,根据所述当前业务场景信息,对所述质量检测结果进行整合,确定数据质量报告,具体包括:
8.根据权利要求1所述的一种基于业务场景的数据质量检测方法,其特征在于,确定当前数据质量检测需求对应的当前业务场景信息,具体包括:
9.一种基于业务场景的数据质量检测设备,其特征在于,所述设备包括:
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:执行如权利要求1-8任一所述的方法。
