本发明涉及数据处理,特别涉及一种多源异构数据集成系统、方法、设备及存储介质。
背景技术:
1、在多源异构数据集成领域,目前主流技术主要依托于数据虚拟化、服务导向架构(soa,soaframework)、微服务架构、以及中间件技术。数据虚拟化技术允许用户通过一个统一的查询接口访问来自不同源的数据,而无需关心数据的具体存储位置和格式。服务导向架构(soa)通过定义清晰的服务接口,实现了不同系统之间的互操作性,促进了业务流程的整合。微服务架构将应用程序分解为一组小型、独立的服务,这些服务可以独立部署和扩展,提高了系统的灵活性和可维护性。中间件技术,如企业服务总线(esb,enterpriseservice bus),提供了数据转换、协议转换和消息路由等功能,支持不同系统之间的通信和数据交换。
2、尽管当前的主流技术在多源异构数据集成方面取得了一定的进展,但它们在实际应用中仍然面临一些不足。首先,现有的数据虚拟化技术在处理大规模数据集时可能会遇到性能瓶颈,特别是在数据实时性要求较高的场景下。其次,soa和微服务架构虽然提高了系统的模块化和灵活性,但同时也增加了系统的复杂性,使得管理和维护变得更加困难。此外,中间件技术虽然能够实现不同系统之间的通信,但往往需要大量的定制化开发,以适应特定的业务需求和数据格式,这不仅增加了开发成本,也延长了集成周期。因此,如何在数据集成过程中提高数据处理速度、增强数据安全性、降低运营成本是目前亟待解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种多源异构数据集成系统、方法、设备及存储介质,能够显著减少传统集成过程中繁琐的手动配置和适配工作,实现快速响应数据源的动态变化,从而加快集成项目的部署速度并降低技术门槛,提高数据处理速度、增强数据安全性、降低运营成本、提升用户体验。其具体方案如下:
2、第一方面,本技术公开了一种多源异构数据集成系统,包括:
3、信息分析模块,用于利用目标适配器对接入的各数据源进行扫描,以便提取各所述数据源的目标信息,并通过所述目标适配器中内置的机器学习模型对各所述数据源的所述目标信息进行分析,获取相应的分析结果;
4、数据源适配模块,用于通过所述目标适配器基于所述分析结果生成各所述数据源对应的适配逻辑,根据所述适配逻辑完成对所述数据源的适配操作;
5、项集与规则确定模块,用于在所述适配操作完成后,对各所述数据源对应的数据进行清洗以及标准化处理,获取处理后数据,基于关联规则挖掘算法确定各所述处理后数据之间的频繁项集以及关联规则;
6、数据关联确定模块,用于利用所述频繁项集、所述关联规则以及长短期记忆网络确定各所述处理后数据之间的关联,以便基于所述关联对所述处理后数据进行分析,以完成多源异构数据的集成。
7、可选的,所述信息分析模块,包括:
8、数据源扫描单元,用于利用目标适配器对接入的各数据源进行扫描,以便识别各所述数据源的类型、结构以及通信协议,并基于所述自然语言处理技术、所述数据源的类型、结构以及通信协议提取各所述数据源的所述目标信息;所述目标信息包括数据格式、更新频率以及访问接口。
9、可选的,所述数据源适配模块,包括:
10、适配逻辑生成单元,用于通过所述目标适配器基于利用支持向量机分类器确定的所述分析结果生成各所述数据源对应的适配逻辑;所述适配逻辑包括数据抽取规则、数据转换规则以及数据加载规则中的任意一种或几种的组合。
11、可选的,所述关联包括时间序列的关联、类别的关联以及数值的关联中的任意一种或几种的组合。
12、可选的,所述系统,还包括:
13、状态评估模块,用于实时收集数据集成系统的目标性能指标,并根据所述目标性能指标对所述数据集成系统的当前运行状态进行评估,获取相应的评估结果;所述目标性能指标包括cpu使用率、内存使用状况、数据吞吐量以及数据处理延迟;
14、资源配置调整模块,用于基于所述目标性能指标以及预设时间序列分析模型对所述数据集成系统在预设时间的资源需求和系统负载进行预测,根据相应的预测结果以及所述当前运行状态对所述数据集成系统的资源配置进行调整。
15、可选的,所述资源配置调整模块,包括:
16、资源配置调整单元,用于根据相应的预测结果以及所述当前运行状态增减所述数据集成系统的数据处理线程、调整所述数据集成系统的内存分配或优化所述数据集成系统的数据存取路径。
17、可选的,所述系统,还包括:
18、数据加密与访问限制模块,用于通过量子密钥分发技术对数据集成过程中传输的数据进行加密,基于用户的角色和权限限制对相应的加密后数据的访问,并在检测到异常访问行为时触发警报。
19、第二方面,本技术公开了一种多源异构数据集成方法,包括:
20、利用目标适配器对接入的各数据源进行扫描,以便提取各所述数据源的目标信息,并通过所述目标适配器中内置的机器学习模型对各所述数据源的所述目标信息进行分析,获取相应的分析结果;
21、通过所述目标适配器基于所述分析结果生成各所述数据源对应的适配逻辑,根据所述适配逻辑完成对所述数据源的适配操作;
22、在所述适配操作完成后,对各所述数据源对应的数据进行清洗以及标准化处理,获取处理后数据,基于关联规则挖掘算法确定各所述处理后数据之间的频繁项集以及关联规则;
23、利用所述频繁项集、所述关联规则以及长短期记忆网络确定各所述处理后数据之间的关联,以便基于所述关联对所述处理后数据进行分析,以完成多源异构数据的集成。
24、第三方面,本技术公开了一种电子设备,包括:
25、存储器,用于保存计算机程序;
26、处理器,用于执行所述计算机程序以实现如前述的多源异构数据集成方法。
27、第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如前述的多源异构数据集成方法。
28、本技术公开了一种多源异构数据集成系统,包括信息分析模块,用于利用目标适配器对接入的各数据源进行扫描,以便提取各所述数据源的目标信息,并通过所述目标适配器中内置的机器学习模型对各所述数据源的所述目标信息进行分析,获取相应的分析结果;数据源适配模块,用于通过所述目标适配器基于所述分析结果生成各所述数据源对应的适配逻辑,根据所述适配逻辑完成对所述数据源的适配操作;项集与规则确定模块,用于在所述适配操作完成后,对各所述数据源对应的数据进行清洗以及标准化处理,获取处理后数据,基于关联规则挖掘算法确定各所述处理后数据之间的频繁项集以及关联规则;数据关联确定模块,用于利用所述频繁项集、所述关联规则以及长短期记忆网络确定各所述处理后数据之间的关联,以便基于所述关联对所述处理后数据进行分析,以完成多源异构数据的集成。可见,本技术通过适配器实现数据的快速适配,适配器利用机器学习模型,动态检测并适配不同数据源的适配逻辑,确保数据的无缝接入。同时采用深度学习算法,智能分析和整合来自不同源的数据,挖掘数据间的内在联系,实现数据的深层次融合。这样一来,能够显著减少传统集成过程中繁琐的手动配置和适配工作,实现快速响应数据源的动态变化,从而加快集成项目的部署速度并降低技术门槛。并且提升了数据处理的质量和效率,通过机器学习模型深入分析数据内在联系,为企业提供更准确、更全面的数据视图,支持复杂决策的制定。最终,对企业产生推动作用,包括提高数据处理速度、增强数据安全性、降低运营成本、提升用户体验和加速业务决策过程。
1.一种多源异构数据集成系统,其特征在于,包括:
2.根据权利要求1所述的多源异构数据集成系统,其特征在于,所述信息分析模块,包括:
3.根据权利要求1所述的多源异构数据集成系统,其特征在于,所述数据源适配模块,包括:
4.根据权利要求1所述的多源异构数据集成系统,其特征在于,所述关联包括时间序列的关联、类别的关联以及数值的关联中的任意一种或几种的组合。
5.根据权利要求1所述的多源异构数据集成系统,其特征在于,还包括:
6.根据权利要求5所述的多源异构数据集成系统,其特征在于,所述资源配置调整模块,包括:
7.根据权利要求1至6任一项所述的多源异构数据集成系统,其特征在于,还包括:
8.一种多源异构数据集成方法,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求8所述的多源异构数据集成方法。