一种机器学习数据遗忘验证系统、方法及存储介质

专利2025-11-13  6


本发明涉及人工智能安全,更具体地,涉及一种机器学习数据遗忘验证系统、方法及存储介质。


背景技术:

1、用于预测服务的机器学习(ml)模型通常是在用户数据上进行训练的,这可以参考当前的机器学习即服务(mlaas)范式。特别是,数据所有者可以授权服务提供商根据数据所有者提供的数据训练机器学习模型,然后使用训练后的模型提供预测服务。但是,数据所有者可能会撤回授权,即发送请求从训练模型中删除数据所有者的数据,而遵守删除请求需要重新训练模型或完全删除模型。最近,一些严格的数据法案已明确规定了用户享有数据“被遗忘权”,从隐私和安全的角度来看,遗忘权至关重要。

2、传统的机器学习可以利用在遗忘数据上的准确性验证遗忘成功与否,但该方法在不信任的环境中难以确保“被遗忘权”合规性,现实中强大的服务器端很可能不会删除用户数据,此外,不诚实的服务器还可以通过发起伪造攻击来战略性地逃避先前的遗忘方法所建议的验证指标。此外,目前还有提出从参数级别实现数据近似删除和从参数级别实现数据精确删除。如sisa框架(secure information sharing architecture,安全信息共享架构)提供了一种针对通用机器学习模型的精确数据遗忘方法,其通过遗忘学习来遵守数据所有者的删除请求。然而该方法具有一定局限性,为了验证数据遗忘的正确性,需要对从经过认证的学习数据到学习到的中间子模型的谱系进行有效跟踪,以及对遗忘学习的正确性进行有效验证,但这将带来巨大的计算成本。


技术实现思路

1、本发明为克服上述现有技术中对数据遗忘的有效验证效率低,且需要消耗大量计算成本的缺陷,提供一种机器学习数据遗忘验证系统、方法及存储介质。

2、为解决上述技术问题,本发明的技术方案如下:

3、一种机器学习数据遗忘验证系统,包括数据存储组件、模型链表组件、键链表组件和过滤器,所述键链表组件和过滤器设置于可信执行环境内。其中:

4、服务器将用户上传的数据集d打包到过滤器中构建关于数据集中每个数据点d∈d的索引kid,将数据点d与索引kid链接后存储在数据存储组件;将索引kid存储在所述键链表组件中;

5、通过索引kid从所述数据存储组件中读取数据集d,在可信执行环境内基于初始模型m0进行目标学习方法f的机器学习,得到第一模型m1,并将其存储于所述模型链表组件中;向用户返回第一模型m1;

6、当接收到数据遗忘请求时,在可信执行环境内通过所述过滤器执行数据遗忘操作,通过索引kid删除所述数据存储组件中的数据点du∈d,以及所述模型链表组件中的第一模型m1,并生成数据删除证明σd;

7、从所述数据存储组件中读取删除数据后的数据集d',在可信执行环境内重新进行目标学习方法f的机器学习,得到第二模型m2,并将其存储于所述模型链表组件中;生成模型学习证明σm,并向用户返回第二模型m2和模型学习证明σm;

8、当接收到预测请求时,获取测试数据t,并通过索引kid从所述模型链表组件中读取第二模型m2;在可信执行环境内通过所述过滤器执行预测,将测试数据t输入第二模型m2中,输出预测结果p和模型预测证明σp;

9、用户根据数据删除证明σd、模型学习证明σm和模型预测证明σp进行有效性验证,确定服务器正确执行数据遗忘。

10、进一步地,本发明还提出了一种机器学习数据遗忘验证方法,应用本发明提出的机器学习数据遗忘验证系统。所述方法中包括以下步骤:

11、s1、服务器将用户上传的数据集d打包到过滤器中构建关于数据集中每个数据点d∈d的索引kid,将数据点d与索引kid链接后存储在数据存储组件;

12、s2、通过索引kid从所述数据存储组件中读取数据集d,在可信执行环境内基于初始模型m0进行目标学习方法f的机器学习,得到第一模型m1,并将其存储于所述模型链表组件中;向用户返回第一模型m1;

13、s3、当接收到数据遗忘请求时,在可信执行环境内通过所述过滤器执行数据遗忘操作,通过索引kid删除所述数据存储组件中的数据点du∈d,以及所述模型链表组件中的第一模型m1,并生成数据删除证明σd;

14、s4、从所述数据存储组件中读取删除数据后的数据集d',在可信执行环境内重新进行目标学习方法f的机器学习,得到第二模型m2,并将其存储于所述模型链表组件中;生成模型学习证明σm,并向用户返回第二模型m2和模型学习证明σm;

15、s5、当接收到预测请求时,获取测试数据t,并通过索引kid从所述模型链表组件中读取第二模型m2;在可信执行环境内通过所述过滤器执行预测,将测试数据t输入第二模型m2中,输出预测结果p和模型预测证明σp;

16、s6、用户根据数据删除证明σd、模型学习证明σm和模型预测证明σp进行验证,确定服务器正确执行数据遗忘。

17、进一步地,本发明还提出了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如本发明提出的机器学习数据遗忘验证方法的步骤。

18、进一步地,本发明还提出了一种存储介质,其上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现如本发明提出的机器学习数据遗忘验证方法的步骤。

19、与现有技术相比,本发明技术方案的有益效果是:本发明适用于通用机器学习模型,通过验证数据删除证明σd、模型学习证明σm和模型预测证明σp的有效性断言服务器正确执行数据遗忘,其计算成本小且稳定,能够高效实现机器学习数据遗忘验证;本发明采用可信执行环境作为安全内存区域,能够有效防止潜在的完整性攻击,配合可信执行环境内设置的键链表组件和过滤器组成的高内存效率的数据结构,以及可信执行环境外设置的数据存储组件和模型链表组件,能够在低计算成本的情况下实现高数据读写效率及高机器学习数据遗忘验证效率。



技术特征:

1.一种机器学习数据遗忘验证系统,其特征在于,包括数据存储组件、模型链表组件、键链表组件和过滤器,所述键链表组件和过滤器设置于可信执行环境内;其中:

2.根据权利要求1所述的机器学习数据遗忘验证系统,其特征在于,所述键链表组件中存储有对应每个数据点的键,每个键条目包括数据索引kid、指示标记tag、用于查找对应数据点的数据指针*data、用于连接数据切片与相应子模型的模型指针*model,和种子seed。

3.根据权利要求2所述的机器学习数据遗忘验证系统,其特征在于,所述可信执行环境内初始化有公共验证密钥和签名密钥对(pksgx,sksgx);所述可信执行环境还配置有progk程序、progc程序、progt程序和progp程序;其中,所述progk程序用于生成每个数据点的键;所述progc程序用于执行将馈送数据插入过滤器中;所述progt程序用于执行增量训练中间模型检查点;所述progp程序用于执行对给定测试数据的模型预测。

4.根据权利要求3所述的机器学习数据遗忘验证系统,其特征在于,所述模型学习证明σm由利用签名密钥sksgx对机器学习过程签名得到;所述数据删除证明σd由利用签名密钥sksgx对关于数据du的遗忘学习过程签名得到;所述模型预测证明σp由利用签名密钥sksgx对测试数据t、预测结果p、第二模型m2和测试过程签名得到。

5.根据权利要求4所述的机器学习数据遗忘验证系统,其特征在于,当接收到数据遗忘请求时,在可信执行环境内通过所述过滤器执行数据遗忘操作的步骤包括:

6.根据权利要求4所述的机器学习数据遗忘验证系统,其特征在于,在可信执行环境内进行目标学习方法f的机器学习时,执行以下步骤:

7.根据权利要求6所述的机器学习数据遗忘验证系统,其特征在于,在可信执行环境内通过所述过滤器执行预测时,执行以下步骤:

8.根据权利要求1~7任一项所述的机器学习数据遗忘验证系统,其特征在于,用户根据数据删除证明σd、模型学习证明σm和模型预测证明σp进行有效性验证时,其步骤包括:

9.一种机器学习数据遗忘验证方法,应用权利要求1~8任一项所述的机器学习数据遗忘验证系统,其特征在于,包括以下步骤:

10.一种存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求9所述的机器学习数据遗忘验证方法的步骤。


技术总结
本发明涉及人工智能安全技术领域,提出一种机器学习数据遗忘验证系统及方法。其中所述系统包括数据存储组件、模型链表组件、键链表组件和过滤器,所述键链表组件和过滤器设置于可信执行环境内。本发明适用于通用机器学习模型,通过验证数据删除证明σ<subgt;d</subgt;、模型学习证明σ<subgt;m</subgt;和模型预测证明σ<subgt;p</subgt;的有效性断言服务器正确执行数据遗忘,能够高效实现机器学习数据遗忘验证;本发明采用可信执行环境作为安全内存区域,能够有效防止潜在的完整性攻击,配合可信执行环境内设置的键链表组件和过滤器组成的高内存效率的数据结构,以及可信执行环境外设置的数据存储组件和模型链表组件,能够在低计算成本的情况下实现高数据读写效率及高机器学习数据遗忘验证效率。

技术研发人员:翁嘉思,郭玉旭,翁健,陈泯融,刘志全
受保护的技术使用者:暨南大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-27807.html