本发明涉及银行大数据清洗领域,尤其涉及一种银行大数据环境下的数据清洗方法及系统。
背景技术:
1、银行业务每天都会产生大量的数据,包括客户信息、账户信息、交易信息、外部数据等。这些数据对于银行的数据管理、决策支持和客户服务等方面具有重要意义。然而,由于数据渠道来源众多、数据格式不统一、质量参差不齐等原因,银行数据中存在大量的脏数据,如重复数据、错误数据、缺失数据。这些脏数据的存在严重影响了银行数据的质量和可用性,因此需要对银行数据进行清洗。
2、传统的数据清洗方法主要依靠人工进行,效率低下且容易出错。随着银行数据量的不断增长,传统的数据清洗方法已经无法满足银行大数据环境下的需求。因此,亟需一种高效、准确的数据清洗系统和方法来解决银行大数据环境下的数据清洗问题。
技术实现思路
1、鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种银行大数据环境下的数据清洗方法及系统。
2、根据本发明的一个方面,提供了一种银行大数据环境下的数据清洗方法,所述数据清洗方法包括:
3、从银行各个源业务系统中采集原始数据;
4、对所述原始数据进行预处理,获得预处理后数据;
5、对所述预处理后数据进行校验、清洗,获得清洗后数据;
6、对所述清洗后数据进行质量评估。
7、可选的,所述数据清洗方法还包括:将清洗后数据存储到数据仓库中。
8、可选的,所述从银行各个源业务系统中采集原始数据具体包括:
9、利用api接口、数据爬虫技术,从银行各个业务系统中自动采集数据,包括客户信息、账户信息和交易信息。
10、可选的,所述对所述原始数据进行预处理具体包括:
11、对预处理后的数据进行数据识别和分类;
12、对数据进行初步校验,检查数据是否符合预定的格式和类型要求,使用正则表达式、数据类型验证等方法来筛选出不符合要求的数据;
13、使用统计学以及机器学习方法自动识别异常值,并根据业务规则使用sql语言或linux命令对数据决定是否保留、删除或修正异常值;
14、利用数据去重算法,通过sql语言、定义函数进行去除重复的数据。
15、可选的,所述对所述预处理后数据进行校验、清洗具体包括:错误数据修正和不完整数据补全。
16、可选的,所述对所述清洗后数据进行质量评估具体包括:
17、对清洗后的数据通过sql逻辑进行质量评估;
18、设计数据质量评估指标,对数据质量进行量化评估;
19、建立数据质量监控机制,定期对数据质量进行评估和监控,及时发现和解决数据问题,迭代升级数据清洗算法。
20、可选的,所述将清洗后数据存储到数据仓库中具体包括:
21、设计数据存储方案,包括关系型数据库、分布式数据库;
22、根据数据的特点和需求选择合适的存储方式。
23、可选的,所述数据质量评估指标包括数据缺失率、数据错误率。
24、本发明还提供了一种银行大数据环境下的数据清洗系统,应用上述所述的一种银行大数据环境下的数据清洗方法,所述数据清洗方法包括:
25、数据采集模块,用于从银行各个源业务系统中采集原始数据;
26、数据预处理模块,用于对所述原始数据进行预处理,获得预处理后数据;
27、数据清洗模块,用于对所述预处理后数据进行校验、清洗,获得清洗后数据;
28、数据质量评估模块,用于对所述清洗后数据进行质量评估。
29、可选的,所述数据清洗系统还包括:数据存储模块,用于将清洗后数据存储到数据仓库中。
30、本发明提供的一种银行大数据环境下的数据清洗方法及系统,所述数据清洗方法包括:从银行各个源业务系统中采集原始数据;对所述原始数据进行预处理,获得预处理后数据;对所述预处理后数据进行校验、清洗,获得清洗后数据;对所述清洗后数据进行质量评估。解决现有技术中银行数据清洗效率低下、准确性差的问题。
31、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
1.一种银行大数据环境下的数据清洗方法,其特征在于,所述数据清洗方法包括:
2.根据权利要求1所述的一种银行大数据环境下的数据清洗方法,其特征在于,所述数据清洗方法还包括:将清洗后数据存储到数据仓库中。
3.根据权利要求1所述的一种银行大数据环境下的数据清洗方法,其特征在于,所述从银行各个源业务系统中采集原始数据具体包括:
4.根据权利要求1所述的一种银行大数据环境下的数据清洗方法,其特征在于,所述对所述原始数据进行预处理具体包括:
5.根据权利要求1所述的一种银行大数据环境下的数据清洗方法,其特征在于,所述对所述预处理后数据进行校验、清洗具体包括:错误数据修正和不完整数据补全。
6.根据权利要求1所述的一种银行大数据环境下的数据清洗方法,其特征在于,所述对所述清洗后数据进行质量评估具体包括:
7.根据权利要求2所述的一种银行大数据环境下的数据清洗方法,其特征在于,所述将清洗后数据存储到数据仓库中具体包括:
8.根据权利要求6所述的一种银行大数据环境下的数据清洗方法,其特征在于,所述数据质量评估指标包括数据缺失率、数据错误率。
9.一种银行大数据环境下的数据清洗系统,应用上述权利要求1-8任意一项所述的一种银行大数据环境下的数据清洗方法,其特征在于,所述数据清洗方法包括:
10.根据权利要求9所述的一种银行大数据环境下的数据清洗系统,其特征在于,所述数据清洗系统还包括:数据存储模块,用于将清洗后数据存储到数据仓库中。