本技术涉及动态数据脱敏,具体而言,涉及一种基于人工智能的动态数据自适应脱敏方法及装置。
背景技术:
1、动态数据脱敏是一种在数据运行时对数据进行特殊处理的技术,旨在掩盖敏感数据的真实部分,以保护数据隐私。与静态数据脱敏不同,动态数据脱敏不是在数据存储时进行脱敏,而是在数据查询或使用时进行,确保用户在实际操作时无需使用真实数据,而是使用脱敏后的数据,有效规避数据信息的直接暴露。
2、动态数据脱敏通过内置的安全策略实现,用户可以根据实际需求定义脱敏策略,包括脱敏方式和用户过滤器等。在实际应用中,当用户查询包含敏感数据的表时,系统会根据定义的脱敏策略对目标字段进行脱敏处理,如替换、打乱或生成随机值等方式,以保护数据的隐私性。
3、动态数据脱敏的优势在于其能够在多用户环境下为不同用户设置不同的脱敏策略,确保每个用户只能访问到其权限范围内的脱敏数据。此外,它还能防止数据泄露和非法访问,即使攻击者获得了数据库文件的访问权限,他们也只能看到经过脱敏处理的数据。动态数据脱敏还能帮助企业满足合规性要求和审计需求,通过脱敏策略确保在审计过程中只展示脱敏后的数据。
4、动态数据脱敏能适用于多种场景,但是,当前动态脱敏技术存在以下缺点和不足:敏感数据识别不够准确:当前动态脱敏技术依赖人工标记敏感数据,脱敏处理的准确性和全面性难以保障;脱敏算法选择困难:为了实现精细的脱敏策略,需要对每个应用、每个接口、每个字段进行详细配置相应算法,这不仅配置工作量大,而且容易出现疏漏;数据关联关系失效:动态脱敏处理后,数据间原有的关联关系被破坏,影响数据的完整性和一致性;脱敏数据质量不高:无法有效保留数据的统计特性和分布规律,数据在后续的数据分析和机器学习模型训练中无法有效利用。
技术实现思路
1、本技术实施例的目的在于提供一种基于人工智能的动态数据自适应脱敏方法及装置,用以解决现有动态数据脱敏方法存在的问题。
2、第一方面,本技术实施例提供了一种基于人工智能的动态数据自适应脱敏方法,包括:
3、基于深度学习模型和自然语言处理技术,标注动态数据中的敏感信息;
4、训练强化学习模型,对动态数据生成动态脱敏策略,以进行数据的脱敏处理;
5、通过图神经网络识别和分类动态数据中的关联关系,并对关联数据进行统一处理;
6、完成对动态数据的脱敏处理,并接收脱敏反馈数据,基于反馈的脱敏数据调整动态脱敏策略。
7、在上述实现过程中,本技术实施例基于深度学习模型和自然语言处理技术,标注动态数据中的敏感信息;训练强化学习模型,对动态数据生成动态脱敏策略,以进行数据的脱敏处理;通过图神经网络识别和分类动态数据中的关联关系,并对关联数据进行统一处理;完成对动态数据的脱敏处理,并接收脱敏反馈数据,基于反馈的脱敏数据调整动态脱敏策略;自动识别数据中的敏感信息,确保脱敏处理的准确性和全面性;自适应的脱敏算法,自动生成并调整脱敏策略,节省工作量,避免出现疏漏;识别并处理关联数据,保证数据的完整性和一致性;通过反馈的脱敏数据调整脱敏策略,确保脱敏数据在后续的数据分析和机器学习模型训练中的有效性。
8、进一步的,所述基于深度学习模型和自然语言处理技术,标注动态数据中的敏感信息,包括:
9、确定标注目标和需识别的敏感数据类型;
10、根据标注规则,选择标注工具,输入训练数据进行训练深度学习模型;
11、基于深度学习模型结合自然语言处理技术,识别动态数据的数据类型,并调用对应的标注方式进行敏感信息的标注。
12、在上述实现过程中,利用深度学习模型结合自然语言处理技术,识别并标准动态数据的敏感信息;能够准确识别个人信息、商业机密等敏感数据,同时支持自定义敏感词库,提高识别的灵活性和准确性。
13、进一步的,所述训练强化学习模型,并根据动态数据生成动态脱敏策略,以进行脱敏处理,包括:
14、获取训练数据并对该数据进行预处理和上下文分析,以得到数据的上下文信息;
15、定义强化学习的环境,选择强化学习算法进行训练强化学习模型,并对该模型进行优化和调整;
16、当接收到数据脱敏请求时,将动态数据的特征和上下文信息输入到训练好的强化学习模型中,以通过强化学习模型生成脱敏策略;
17、根据生成的脱敏策略,调用对应的脱敏工具或函数对数据进行脱敏处理。
18、在上述实现过程中,通过强化学习模型和动态脱敏策略,动态调整脱敏强度和方式,在保护隐私和保持数据可用性之间取得平衡。
19、进一步的,所述通过图神经网络识别和分类动态数据中的关联关系,并对关联数据进行统一处理,包括:
20、对训练数据进行预处理和格式转换;
21、选择并构建图神经网络模型;
22、通过训练数据对图神经网络模型进行训练和优化;
23、将动态数据输入至训练好的图神经网络模型,以识别和分类动态数据中的关联关系,并对关联数据进行统一处理。
24、在上述实现过程中,图神经网络分析数据的依赖关系和结构,对关联数据进行统一处理,保持数据集的完整性和一致性。
25、进一步的,所述获取训练数据并对该数据进行预处理和上下文分析,以得到数据的上下文信息,包括:
26、从各种数据源收集训练数据,其中,数据源包括:数据库、文件系统和应用程序接口,其中,数据类型包括:结构化数据、半结构化数据和非结构化数据;
27、若数据类型为结构化数据,通过数据库连接获取表结构和数据内容;
28、若数据类型为半结构化或非结构化数据,使用相应的解析工具进行解析和提取关键信息;
29、对收集到的训练数据进行清洗,去除噪声、重复值和异常值;
30、根据数据类型和业务需求对训练数据进行特征提取;
31、分析训练数据的上下文信息,其中,上下文信息包括:数据的来源、数据的用途、数据的访问频率和数据的关联关系;
32、构建数据图谱,将训练数据之间的关联关系以设定的方式表示出来;
33、其中,所述定义强化学习的环境,选择强化学习算法进行训练强化学习模型,并对该模型进行优化和调整,包括:
34、定义强化学习的环境,其中,强化学习的环境包括状态空间、动作空间和奖励函数;
35、定义状态空间、动作空间和奖励函数;
36、选择强化学习算法;
37、调整强化学习算法的超参数,通过实验和调优,得到当前任务的超参数组合;其中,所述超参数包括学习率、折扣因子、经验回放缓冲区大小和批次大小;
38、采用探索与利用平衡策略进行强化学习模型的训练;
39、定期对强化学习模型进行评估和验证,使用独立的测试集来对强化学习模型进行测试,以调整优化该模型;
40、其中,所述当接收到数据脱敏请求时,将动态数据的特征和上下文信息输入到训练好的强化学习模型中,以通过强化学习模型生成脱敏策略,包括:
41、当接收到数据脱敏请求时,将动态数据的特征和上下文信息输入到训练好的强化学习模型中;
42、基于强化学习模型,根据当前状态选择最优的动作,确定对应的脱敏操作和参数,以生成脱敏策略;
43、其中,所述根据生成的脱敏策略,调用对应的脱敏工具或函数对数据进行脱敏处理,包括:
44、根据生成的脱敏策略,对于不同类型的数据和脱敏操作,调用相应的脱敏工具或函数对数据进行脱敏处理;
45、在执行脱敏策略时,保护数据的完整性和可用性;
46、记录脱敏策略的执行过程和执行结果,其中,该执行结果包括原始数据、脱敏后数据、脱敏操作的时间和执行人员。
47、进一步的,所述对训练数据进行预处理和格式转换,包括:
48、从不同数据源获取训练数据,对训练数据进行预处理,其中,预处理包括去除重复数据、处理缺失值;
49、对不同数据源的节点数据,提取对应的特征;其中,该特征包括数值型、类别型或文本型的特征数据;
50、对特征进行标准化或归一化处理,以使不同特征具有相同的尺度和分布;
51、定义图的节点和边,其中,节点对应数据实体,边表示实体之间的关系;
52、根据数据中的关系信息构建邻接矩阵,为每个节点创建特征矩阵;
53、其中,所述选择并构建图神经网络模型,包括:
54、根据训练数据的特点和任务需求选择图神经网络模型的类型;
55、其中,所述通过训练数据对图神经网络模型进行训练和优化,包括:
56、接收图的特征矩阵和邻接矩阵,作为输入层;
57、根据图神经网络模型的类型,选择对应的隐藏层;
58、根据任务类型设计输出层;
59、将输入层划分为训练集、验证集和测试集;
60、定义损失函数,选择优化算法;
61、初始化模型的参数,从训练集中抽取设定数量的数据,将设定数量的数据输入至图神经网络模型中,进行前向传播计算,得到图神经网络模型的预测结果;
62、根据预测结果和真实标签,计算损失函数的值,使用反向传播算法计算损失函数对模型参数的梯度;
63、根据选择的优化算法,使用计算得到的梯度更新模型的参数;
64、监控训练过程中的指标,该指标包括损失值和准确率;
65、其中,所述将动态数据输入至训练好的图神经网络模型,以识别和分类动态数据中的关联关系,并对关联数据进行统一处理,包括:
66、通过训练好的图神经网络模型,计算每个节点的嵌入表示;
67、根据节点嵌入进行关联数据的识别和分类;
68、对识别和分类后的关联数据进行统一处理。
69、进一步的,所述接收脱敏反馈数据,基于反馈的脱敏数据调整动态脱敏策略,包括:
70、建立评估指标体系,以衡量动态脱敏策略的效果;其中,评估指标包括:数据安全性、数据可用性、业务合规性和性能指标;
71、建立用户反馈渠道,以收集业务用户对脱敏后数据的使用体验和意见;
72、根据评估指标和用户反馈的结果,对强化学习模型进行改进和优化;
73、定期重新训练强化学习模型,将新的数据和反馈信息纳入训练过程中,以不断优化强化学习模型和动态脱敏策略。
74、在上述实现过程中,通过监控脱敏后的数据在实际应用中的表现,收集反馈,调整脱敏参数,确保数据在满足隐私保护的同时,增强脱敏数据在后续的数据分析和机器学习模型训练中的有效性。
75、第二方面,本技术实施例提供一种基于人工智能的动态数据自适应脱敏装置,包括:
76、智能敏感数据识别模块,用于基于深度学习模型和自然语言处理技术,标注动态数据中的敏感信息;
77、自适应脱敏算法模块,用于训练强化学习模型,对动态数据生成动态脱敏策略,以进行数据的脱敏处理;
78、数据关联关系保持模块,用于通过图神经网络识别和分类动态数据中的关联关系,并对关联数据进行统一处理;
79、脱敏数据质量优化模块,用于完成对动态数据的脱敏处理,并接收脱敏反馈数据,基于反馈的脱敏数据调整动态脱敏策略。
80、第三方面,本技术实施例提供一种电子设备,包括:
81、处理器、存储器和总线,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如上所述的基于人工智能的动态数据自适应脱敏方法。
82、第四方面,本技术实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现如上所述的基于人工智能的动态数据自适应脱敏方法。
1.一种基于人工智能的动态数据自适应脱敏方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于人工智能的动态数据自适应脱敏方法,其特征在于,所述基于深度学习模型和自然语言处理技术,标注动态数据中的敏感信息,包括:
3.根据权利要求1所述的基于人工智能的动态数据自适应脱敏方法,其特征在于,所述训练强化学习模型,并根据动态数据生成动态脱敏策略,以进行脱敏处理,包括:
4.根据权利要求1所述的基于人工智能的动态数据自适应脱敏方法,其特征在于,所述通过图神经网络识别和分类动态数据中的关联关系,并对关联数据进行统一处理,包括:
5.根据权利要求3所述的基于人工智能的动态数据自适应脱敏方法,其特征在于,所述获取训练数据并对该数据进行预处理和上下文分析,以得到数据的上下文信息,包括:
6.根据权利要求4所述的基于人工智能的动态数据自适应脱敏方法,其特征在于,所述对训练数据进行预处理和格式转换,包括:
7.根据权利要求1所述的基于人工智能的动态数据自适应脱敏方法,其特征在于,所述接收脱敏反馈数据,基于反馈的脱敏数据调整动态脱敏策略,包括:
8.一种基于人工智能的动态数据自适应脱敏装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现如权利要求1-7任一所述的基于人工智能的动态数据自适应脱敏方法。