本发明属于表格数据预测,尤其涉及一种用于处理表格数据的有序回归方法及系统。
背景技术:
1、有序回归是机器学习中的一个经典问题,专门用于对具有有序标签的数据进行预测。广泛应用于实际生活,比如电影评分、产品评级和病灶程度评估等。表格是由行和列组成的结构化数据集。
2、目前有序回归研究主要聚焦于计算机视觉和自然语言处理等领域,发明人检索到有针对图像数据和三维点云数据的有序回归方法,没有检索到针对表格数据的有序回归方法。例如,专利文献1:cn117333485a公开了一种基于弱监督深度序数回归网络的wsi生存预测方法,其对图片数据输入到序数回归网络中,进行生存预测,获得预测结果。专利文献2:cn106250818a公开了一种全序保持投影的人脸年龄估计方法,其对从人脸图像提取到的特征数据进行全序投影得到低维特征,输入到有序回归分类模型,进而来估计年龄。专利文献3:cn105975916a公开了一种基于多输出卷积神经网络和有序回归的年龄估计方法,利用人脸图像,使用二分类的有序回归方法进行年龄估计。专利文献4:cn111428619a公开了基于有序回归和软标签的三维点云头部姿态估计系统和方法,对由深度图像生成的头部三维点云数据进行处理,估计头部姿态。上述专利文献1至3均以图像为输入进行等级估计,专利文献4以三维点云数据为输入进行头部姿态估计。
3、由于表格数据独特的离散性和异质多模态性,导致表格数据预测领域外的有序回归方法无法使用于表格数据,因此亟待一种用于处理表格数据的有序回归方法。
技术实现思路
1、本发明的目的在于克服现有技术缺陷,提出了一种用于处理表格数据的有序回归方法,本发明还公开了一种用于处理表格数据的有序回归系统。
2、一方面,本发明提供了一种用于处理表格数据的有序回归方法,包括:
3、步骤1:利用多模态编码器对查询样本进行两次编码,得到初始查询样本特征和最终查询样本特征,并利用多模态编码器对表格数据训练集进行两次编码,得到训练特征候选集和标签候选集,其中,表格数据训练集中的每一样本为包括实体特征和对应的有序标签的表格数据,查询样本为包括实体特征的表格数据;
4、步骤2:计算训练特征候选集中按有序标签分类后得到的各类特征的类间距离累加值,并利用检索器从训练特征候选集和标签候选集中检索与最终查询样本特征相似的多个相似样本特征和对应的多个相似样本标签;
5、步骤3:利用多个相似样本标签、各类特征的类间距离累加值,计算多个相似样本特征的贡献度权重,并计算检索到的多个相似样本特征与最终查询样本特征之间的相似度;
6、步骤4:参照注意力机制,融合相似度和贡献度权重,得到上下文特征;
7、步骤5:整合初始查询样本特征和上下文特征,得到查询样本的最终特征表示;
8、步骤6:利用预测器对最终特征表示进行预测,得到查询样本的有序标签。
9、在一种改进的用于处理表格数据的有序回归方法中,步骤2中所述计算训练特征候选集中按有序标签分类后得到的各类特征的类间距离累加值,包括:
10、步骤2-1:计算训练特征候选集中按有序标签分类后得到的各类特征与基准类别特征之间的类间距离;
11、步骤2-2:针对每类特征,将该类特征与基准特征之间的各类特征的类间距离进行累加,得到该类特征的类间距离累加值。
12、在一种改进的用于处理表格数据的有序回归方法中,所述基准类别为第一类,所述步骤2-1包括:
13、计算训练特征候选集中按有序标签分类后得到的各类特征的均值特征;
14、计算各类特征的均值特征到第一类特征的距离,得到各类特征的类间距离。
15、在一种改进的用于处理表格数据的有序回归方法中,步骤3中所述利用多个相似样本标签、各类特征的类间距离累加值,计算多个相似样本特征的贡献度权重,包括:
16、利用标签候选集、各类特征的类间距离累加值,构建标签类间权重字典,其中,标签类间权重字典包括每一类别的标签和相应的类间累加距离值;
17、利用多个相似样本标签,从标签类间权重字典中找到相应的类间距离累加值;
18、对找到的类间距离累加值进行编码,得到多个相似样本特征的贡献度权重。
19、在一种改进的用于处理表格数据的有序回归方法中,步骤4包括:
20、将相似度和贡献度权重相乘,得到上下文特征。
21、在一种改进的用于处理表格数据的有序回归方法中,步骤5包括:
22、将初始查询样本特征和上下文特征相加,得到查询样本的最终特征表示。
23、在一种改进的用于处理表格数据的有序回归方法中,在训练时,所述查询样本为训练集中的1个样本;在验证时,所述查询样本为验证集中的1个样本;在测试时,所述查询样本为测试集中的1个样本;在实际使用时,所述查询样本为待确定有序标签的1条数据。
24、在一种改进的用于处理表格数据的有序回归方法中,所述表格数据的数据类型包括以下三种类型中的任一种、任二种或全部:
25、数值型、字符型和二元型。
26、在一种改进的用于处理表格数据的有序回归方法中,所述有序回归方法应用在产品评级、年龄预测、土壤效用评级和检索相关评级场景中。
27、另一方面,本发明提供了一种基于上述用于处理表格数据的有序回归方法的有序回归系统,包括:
28、查询编码模块,用于利用多模态编码器对查询样本进行两次编码,得到初始查询样本特征和最终查询样本特征,其中,查询样本为包括实体特征的表格数据;
29、训练集编码模块,用于利用多模态编码器对表格数据训练集进行两次编码,得到训练特征候选集和标签候选集,其中,表格数据训练集中的每一样本为包括实体特征和对应的有序标签的表格数据;
30、有序知识增强模块,用于计算训练特征候选集中按有序标签分类后得到的各类特征的类间距离累加值;
31、检索模块,用于利用检索器从训练特征候选集和标签候选集中检索与最终查询样本特征相似的多个相似样本特征和对应的多个相似样本标签;
32、贡献度权重计算模块,用于利用多个相似样本标签、各类特征的类间距离累加值,计算多个相似样本特征的贡献度权重;
33、相似度计算模块,用于计算检索到的多个相似样本特征与最终查询样本特征之间的相似度;
34、融合模块,用于参照注意力机制,融合相似度和贡献度权重,得到上下文特征;
35、整合模块,用于整合初始查询样本特征和上下文特征,得到查询样本的最终特征表示;和
36、预测模块,用于利用预测器对最终特征表示进行预测,得到查询样本的有序标签。
37、与现有技术相比,本发明的优势在于:
38、本发明实施例的方案,将有序回归和深度学习方法相结合,采用类间距离表示不同类别的有序数据所体现的知识间隔,也即类间的等级性和不等距性,通过累加体现有序知识的包纳性,并将其作为贡献度权重计算依据,挖掘出了数据特征之间的等级关系,促进有序表格数据更好的进行分类预测,因此,可以较为准确地对查询样本的有序标签进行预测。
1.一种用于处理表格数据的有序回归方法,包括:
2.如权利要求1所述的用于处理表格数据的有序回归方法,其特征在于,步骤2中所述计算训练特征候选集中按有序标签分类后得到的各类特征的类间距离累加值,包括:
3.如权利要求2所述的用于处理表格数据的有序回归方法,其特征在于,所述基准类别为第一类,所述步骤2-1包括:
4.如权利要求1-3任一所述的用于处理表格数据的有序回归方法,其特征在于,步骤3中所述利用多个相似样本标签、各类特征的类间距离累加值,计算多个相似样本特征的贡献度权重,包括:
5.如权利要求1-3任一所述的用于处理表格数据的有序回归方法,其特征在于,步骤4包括:
6.如权利要求1-3任一所述的用于处理表格数据的有序回归方法,其特征在于,步骤5包括:
7.如权利要求1-3任一所述的用于处理表格数据的有序回归方法,其特征在于,在训练时,所述查询样本为训练集中的1个样本;在验证时,所述查询样本为验证集中的1个样本;在测试时,所述查询样本为测试集中的1个样本;在实际使用时,所述查询样本为待确定有序标签的1条数据。
8.如权利要求1-3任一所述的用于处理表格数据的有序回归方法,其特征在于,所述表格数据的数据类型包括以下三种类型中的任一种、任二种或全部:
9.如权利要求1-3任一所述的用于处理表格数据的有序回归方法,其特征在于,所述有序回归方法应用在产品评级、年龄预测、土壤效用评级和检索相关评级场景中。
10.一种基于权利要求1所述的用于处理表格数据的有序回归方法的有序回归系统,包括:
