本发明涉及一种针对图像分类任务实现安全反绎学习的方法和装置,涉及图像分类、机器学习、逻辑推理,适用于图像分类目标数据集和知识库上的反绎学习。
背景技术:
1、机器学习是人工智能领域最重要的技术之一,其致力于通过计算的手段,利用经验来改善系统自身的性能。机器学习可以辅助图像识别和分类,基于机器学习的“数据驱动”的图像分类取得巨大进展,产生了一系列重要的成果,但在安全可信性方面缺乏保障的问题日益凸显。由于机器学习“概率近似正确”的本质,上述问题很难在数据驱动范式下得到解决。与此同时,“知识驱动”的人工智能虽然在数据利用层面具有天然低效性,但其基于逻辑推理可以有很好的正确性保证。反绎学习(abudctive learning,abl)建立了一种数据驱动与知识驱动相融合的人工智能新范式,其通过反绎推理构建中间符号概念的伪标签,从而将任何类型的机器学习算法和一阶逻辑推理连接起来,反绎学习融合了机器学习模型的数据利用高效性和逻辑推理的高准确性。
2、然而,现有面向图像分类任务的反绎学习方法均假设知识库中所包含的逻辑规则都是准确的,该假设在诸多现实应用中难以成立,当知识库包含错误规则时,现有反绎学习技术面临严重性能下降的问题,甚至比纯数据驱动的简单端到端机器学习模型性能更差。
技术实现思路
1、发明目的:针对现有技术中存在的问题与不足,本发明提供一种针对图像分类任务实现安全反绎学习的方法和装置。本发明所提出的方法和装置,能够实现针对带噪知识库的安全可靠的反绎学习,确保知识库包含噪声时反绎学习不会比不利用知识推理的简单机器学习模型性能退化,能够提升图像分类准确率。
2、技术方案:一种实现安全反绎学习的方法,具体包括:
3、1)获取图像分类目标数据集以及知识库(所述知识库不要求所有知识完全正确);
4、2)获取少量干净无偏的验证数据并构建验证数据集;所述干净无偏数据集不包含错误标注且数据分布与真实分布一致;
5、3)基于安全反绎学习方法得到机器学习模型和知识库参数;
6、4)根据知识库参数对知识库做规则筛选和精化;
7、5)计算所得模型在验证数据集上的预测性能和安全性;
8、6)最终训练得到的模型确定为图像分类目标任务的机器学习模型;
9、7)最终筛选得到的知识库确定为图像分类目标任务的知识库。
10、可选的,所述2)中构建验证数据集包括:
11、21)获取小规模干净无偏的验证数据集,数据集包含的样本数量不超过100;;
12、22)通过自助采样法构建验证数据集。
13、其中,所述自助采样法是指一种有放回的均匀采样。
14、可选的,所述验证数据上的预测性能是指在所有验证数据上模型的预测值和真实标记值之间的误差,安全性是指在每一个验证数据集上,模型的预测性能与仅使用数据驱动的端到端训练方式得到的模型性能之间的差值,差值越大表示性能越安全。
15、可选的,所述知识库参数为每条规则(下标为i)赋值可学习的参数w_i,表意为每条规则参与反绎学习的概率,训练完成的知识库使用设置阈值的方法对每条规则作区分,实现规则筛选和精化。
16、可选的,所述安全反绎学习算法在建立图模型刻画中间概念的生成过程,对带噪知识库和机器学习模型通过最小化不一致性进行联合优化,从而使推理系统和机器学习系统能够相互促进,协同训练。
17、另一方面,本发明提供一种实现安全反绎学习的装置,具体包括:
18、1)获取单元,用于获取图像分类目标数据集以及带噪知识库(知识库中存在不准确的规则。
19、2)推理单元,用于对带噪知识库的逻辑推理。
20、3)训练单元,用于在图像分类目标数据集中训练机器学习模型。
21、4)验证单元,用于获取少量干净无偏的验证数据,并基于验证数据验证算法的安全性。
22、本发明提供一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被一个或多个计算装置执行时实现上述实现安全反绎学习的方法。
23、本发明提供一种包括一个或多个计算装置或一个或多个存储装置的系统,所述一个或多个存储装置上记录有计算机程序,所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述第一方面所述的实现安全反绎学习的方法。
24、基于上述技术方案,本发明提供一种针对图像分类任务实现安全反绎学习方法及装置,能够获取图像分类目标数据集和带噪知识库,构建与图像分类目标数据集同分布的干净无偏的验证数据集,使用安全反绎学习算法来更新机器学习模型以及知识库参数,将得到的模型用于验证集上得到验证集上的预测结果,计算模型在验证集上的预测性能和安全性,根据所设置的阈值对知识库做精化。
25、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
1.一种针对图像分类任务实现安全反绎学习的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的针对图像分类任务实现安全反绎学习的方法,其特征在于,所述2)中构建验证数据集包括:
3.根据权利要求1所述的针对图像分类任务实现安全反绎学习的方法,其特征在于,所述验证数据上的预测性能是指在所有验证数据上模型的预测值和真实标记值之间的误差,安全性是指在每一个验证数据集上,模型的预测性能与仅使用数据驱动的端到端训练方式得到的模型性能之间的差值,差值越大表示性能越安全。
4.根据权利要求1所述的针对图像分类任务实现安全反绎学习的方法,其特征在于,所述知识库参数为规则i赋值可学习的参数wi,表意为规则i参与反绎学习的概率,训练完成的知识库使用设置阈值的方法对每条规则作区分,实现规则筛选和精化。
5.根据权利要求1所述的针对图像分类任务实现安全反绎学习的方法,其特征在于,所述安全反绎学习算法在建立图模型刻画中间概念的生成过程,对带噪知识库和机器学习模型通过最小化不一致性进行联合优化,从而使推理系统和机器学习系统能够相互促进,协同训练。
6.一种实现安全反绎学习的装置,其特征在于,包括:
7.一种计算机可读存储介质,其中,所述计算机刻度存储介质上存储有计算机程序,其特征在于,所述计算机程序被一个或多个计算装置执行时实现权利要求1-5中任意一项所述的方法。
8.一种包括一个或多个计算装置和一个或多个存储装置的系统,所述一个或多个存储装置上记录有计算机程序,其特征在于,所述计算机程序在被所述一个或多个计算装置执行时使得一个或多个计算装置实现如权利要求1-5中任意一项所述方法。