本发明涉及用于个性化决策系统的因果模型,特别涉及应用于个性化决策的因果模型离线评估和学习方法及系统。
背景技术:
1、随着大数据和机器学习技术的快速发展,个性化决策系统在多个领域得到了广泛应用,如个性化信贷、个性化推荐系统、个性化医疗和保健、个性化营销等。这些个性化决策系统通过分析某单位(用户或患者)的历史行为和特征,会为了实现特定目标(如高利息收入、高用户点击率、无疾病进展、股票盈利、媒体新闻点赞量等)针对该单位做出个性化的决策(如推荐特定内容、确定贷款额度、使用男性或女性化大模型与社交软件用户进行互动等)。
2、然而,传统的个性化决策系统主要依赖于相关性预测模型,即根据历史数据发掘单位的特征和针对该单位的历史决策与特定目标之间的线性或非线性相关性以预测单位的目标变量结局。这种方法存在一些问题,例如我们不知道如果不做这次决策会不会有相同的或更好的结果,即无法排除未采集或不能采集或未想到的混淆因素对于决策收益的评估。
3、以评估一种新型药物对心脏病患者康复效果的影响为例,可能会在研究中观察到现实世界中接受新药治疗的患者的康复速度似乎比未接受治疗的患者慢。然而,如果没有考虑到混杂因素,比如,患者的年龄、性别、生活方式、饮食习惯等因素,那么就不知道不接受新药治疗是否会康复的更慢,可能会错误地评估该新型药物对于康复速度影响的因果效应。
4、为了解决这些问题,研究人员开始探索使用因果模型来改进个性化决策系统。自因果模型推出至今,人们一直关注因果模型的离线评估和学习方法的改进。
5、现有的方法主要包括基于假设生成的合成或半合成数据进行评估和学习,以及基于预测性能进行评估和学习的方法。然而个性化决策系统必须依赖于真实个体的数据特征,这是因为,一方面,基于假设生成的数据评估和学习不能反映真实世界的因果关系,难以在真实世界应用中创造价值,另一方面,即使生成的数据能够反映真实世界的因果关系,代表真实世界的特性,那么这意味着已经获得了真实世界的生成模型,即用来生成数据的模型,由于因果模型是为了从真实世界数据学习到某种因果知识,于是没有再使用生成的数据学习因果模型和评估的必要性;基于目标变量的预测性能进行评估和学习则不能排除未知混淆因素的影响,没有考虑反事实结局,从而将相关关系误判为因果关系进而对于个性化决策带来负面影响,因此均不合适。
6、综上所述,人们急需一种新的因果模型评估和学习方法来替代或补充现有技术,特别是在个性化决策服务日益普及的今天,如在个性化推荐、个性化医疗和保健、个性化信贷、个性化营销等应用中,这种需求尤其迫切。实际上,为了更准确地定量评估在真实世界中因果模型的好坏,世界上越来越多的因果模型评估和学习的工作均不再使用合成数据和直接针对目标变量的直接或间接的预测指标。
7、近年来出现的随机试验数据分析是一种新的因果模型评估和学习方法,有了随机试验数据以后,人们已经难以容忍使用观测数据进行离线评估或学习因果模型所带来的未知混淆因素的风险,难以容忍合成数据评估的应用局限性,更难以容忍无法正确评估所用因果模型带来的决策收益量的大小等缺陷。
技术实现思路
1、本公开的目的在于避免以上现有技术的不足之处而提出一种个性化决策系统的因果模型的评估和学习方法及实例,采用离线随机试验数据,借助最优分组标签为个性化决策系统提供学习和评估方法,并在不同的个性化决策系统上实现,适用于各种系统,为因果模型的离线评估和学习提供了新的方法。
2、具体的,本公开描述了因果模型的评估和学习的系统和方法,该系统和方法被实现为一个或多个位置中的一个或多个计算机上的应用于个性化决策系统的因果模型学习和评估的计算机程序。
3、本公开评估因果模型的目的可以通过以下技术方案来实现:步骤101,获取待评测因果模型f和包含多个单位的测试数据集ste,并完成评估方法的配置;步骤102,针对测试集中得多个单位,将因果模型f的拟决策取值g相同的测试单位划分为同一组;步骤103,分别计算每组的单位的决策变量取值不同时的潜在结果的差矩阵;步骤104,根据决策因果收益函数b(z)计算因果模型f针对每个单位决策的因果收益。
4、本公开学习因果模型的目的可以通过以下技术方案来实现:步骤201,获取待学习因果模型f和包含多个单位的训练数据集ste,并完成学习方法的配置;步骤202,根据多个单位的数据单元的目标变量y,确定目标变量分界点y0;步骤203,给定训练数据集中的单位,根据目标变量分界点y0以及该单位的数据单元的决策变量a和目标变量y,对该单位分组,从而生成该单位的最优分组标签作为最优决策标签g;步骤204,根据多个单位的数据单元的特征变量x和最优决策标签g学习因果模型。
5、在一些具体实施中,步骤101和步骤201中的测试数据集ste和训练数据集ste中的单位z的决策变量a是随机化产生的,其中,单位z的一个测量结果是数据单元 (x,a,y),x是决策变量a产生前的特征变量,a是决策变量,y是决策变量a产生后单位z的目标变量。
6、其中,数据单元的特征变量类型可为表格记录、自然语言、图像、视频、传感器等,可为静态数据或时间序列,如病人的电子健康记录和关键生命指征监控信息流、用户的个人信息和操作流。
7、其中,数据单元的决策变量为个性化决策系统针对该单位所采取具体决策,决策变量类型可为二进制布尔变量或多值离散变量,如是否对病人弹窗提醒、向用户推送何种商品、给用户的优惠额度、面向该用户的商品定价,可为一维变量或多维变量,如推送的图像声音视频。
8、其中,数据单元的目标变量为个性化决策系统针对该单位的采取特定决策或行为想要测量的该单位的具体属性,目标变量类型可为二值或多值,如病人是否死亡或用户是否购买、用户评分等级、用户还款总额等,可为一维变量或多维变量,如是否有病程进展、多维身体指标等。
9、在一些具体实施中,所述步骤202包括,获取训练数据集str={zi}i=1ntr,使用一个目标分界函数y0=f({zi}i=1ntr),确定目标变量分界点y0=[y01,y02,…,y0dy],其中dy是y的维度,其中,目标分界点y0由目标分界函数f确定,该函数f的输入为全部用于训练的单位的数据单元的目标变量y,输出为目标变量分界点y0。
10、函数f可为取样本的目标变量y最大m等分点或超平面或者取目标变量y区间的最大m等分点或超平面,其中,m是决策变量a的可能取值的数量。
11、在一些具体实施中,所述步骤203包括,将a=i且y>y0的单位标记为第i组,将a=i且y≤y0的单位根据选定的剩余单位分配方法g=r(a,y)将单位分配到不是i组的其他组,其中,分组总数是m,组标签分别为0,1…m-1,最后,将单位的组标签作为预测变量g,即每个单位的最优决策标签g。
12、选定的剩余单位分配方法g=r(a,y)可为对于a=i且y≤y0的单位等概率随机分配到不是i组的其他组或者按照y值排序后轮流分配到不是i组的其他组。
13、在一些具体实施中,所述步骤204包括,根据训练数据集str,单位的特征变量和最优决策标签学习一个预测模型f:x→g,其中,预测模型f的输入x是单位的特征变量,输出是最优决策标签g,根据预测性能学习该因果模型f时,选择具有最高查准率或最高查全率或最大f1-score或最大pr-auc的模型;在使用因果模型f时,针对具体的单位z,根据因果模型f的输出g做出其一一对应的决策a。
14、待学习的因果模型f可以是线性分类模型或贝叶斯分类模型或决策树分类模型及改进(xgboost、lightggbm、catboost)或全连接神经网络分类模型或基于transformer架构的预训练分类大模型(tabpfm)等。
15、在使用因果模型时,针对具体的单位z,根据因果模型的输出g做出其一一对应的决策a。
16、在一些具体实施中,所述步骤102包括,给定因果模型f和测试数据集ste={zi}i=1nte,将测试数据集中的单位的特征变量x输入因果模型,得到因果模型的输出,将因果模型f的拟决策g取值相同的测试单位划分为同一组时,组编号分别为0,1…m-1,其中,m是拟决策g的可能取值数量,也是决策变量a的可能取值数量,因果模型f的输入单位z的特征变量x,输出是针对该单位z的拟决策g。
17、在一些具体实施中,所述步骤103包括,计算第i组的单位的决策变量取值不同时的潜在结果的差矩阵di,其中矩阵di的有m-1行和m-1列,第j行第k列的元素是yia=k-yia=j,其中,潜在结果yia=j表示的是如果第i组内的某个具体的单位z执行决策j,那么该单位z的目标变量y测量结果的期望值被记作yia=j,推断第i组的单位的潜在结果yia=j时使用第i组的单位决策变量取值为j的样本的目标变量y的平均值。
18、在一些具体实施中,所述步骤104包括,决策因果收益函数b=b(z)可为取单位z所在的分组的潜在结果的差矩阵di的第i列去掉第i行的最小值或者取单位z所在的分组的潜在结果的差矩阵di的第i列去掉第i行的平均值。
19、进一步的,根据决策因果收益函数b=b(z)计算针对每个单位的决策因果收益,决策因果总收益为所有单位的决策因果收益的和,决策因果平均收益为所有单位的决策因果总收益除以单位数量。
20、同现有技术相比较,本公开用于个性化决策系统的因果模型的学习和评估方法及实例具有如下优点:本公开的评估方法对于数据假设弱,适用范围广,没有任何特征变量、决策变量、目标变量以及隐变量之间可能关系的条件独立性假设、因果方向、因果图假设,没有任何隐变量或其他变量的形式的假设,没有任何具体的关于变量之间关系的函数化强假设,没有任何对于待评测模型的限制或依赖;本公开的学习方法可以通过学习最优分组显著提高因果模型性能。
1.一种用于个性化决策的因果模型评估方法,其特征在于,包括重复地执行以下步骤:步骤101,获取带评测因果模型f和包含多个单位的测试数据集ste,并完成评估方法的参数配置;步骤102,针对测试集中的多个单位,将因果模型f的拟决策取值g相同的测试单位划分为同一组;步骤103,分别计算每组的单位的决策变量a取值不同时的潜在结果的差矩阵;步骤104,根据决策收益函数b(z)计算因果模型针对每个单位决策的因果收益。
2.根据权利要求1所述的一种个性化决策的因果模型评估方法,其特征在于:所述步骤101中,测试数据集集ste中的单位z的决策变量a是随机化产生的,其中,单位z的一个测量结果是数据单元 (x,a,y),x是决策变量a产生前的特征变量,a是决策变量,y是决策变量a产生后单位z的目标变量。
3.根据权利要求1所述的一种个性化决策的因果模型评估方法,其特征在于:因果模型f的输入是单位z的特征变量x,输出是针对该单位z的拟决策g,所述步骤102中,将因果模型f的拟决策g取值相同的测试单位划分为同一组时,组编号分别为0,1…m-1,其中,m是拟决策g的可能取值数量,也是决策变量a的可能取值数量。
4.根据权利要求1所述的一种个性化决策的因果模型评估方法,其特征在于:所述步骤103中,计算第i组的单位的决策变量取值不同时的潜在结果的差矩阵di,其中矩阵di的有m-1行和m-1列,第j行第k列的元素是yia=k-yia=j,潜在结果yia=j表示的是如果第i组内的某个具体的单位z执行决策j,那么该单位z的目标变量y测量结果的期望值被记作yia=j,推断第i组的单位的潜在结果yia=j时使用第i组的单位决策变量取值为j的样本的目标变量y的平均值。
5.根据权利要求1所述的一种个性化决策的因果模型评估方法,其特征在于:所述步骤104中,决策因果收益函数b=b(z)可为取单位z所在的分组的潜在结果的差矩阵di的第i列去掉第i行的最小值或者取单位z所在的分组的潜在结果的差矩阵di的第i列去掉第i行的平均值。进一步的,根据决策因果收益函数b=b(z)计算针对每个单位的决策因果收益,决策因果总收益为所有单位的决策因果收益的和,决策因果平均收益为所有单位的决策因果总收益除以单位数量。
6.一种个性化决策的因果模型学习方法,其特征在于,包括重复地执行以下步骤:步骤201,获取待学习因果模型f和包含多个单位的训练数据集ste,并完成学习方法的配置;步骤202,根据多个单位的数据单元的目标变量y,确定目标变量分界点y0;步骤203,给定训练数据集中的单位,根据目标变量分界点y0以及该单位的数据单元的决策变量a和目标变量y,对该单位分组,从而生成该单位的最优分组标签作为最优决策标签g;步骤204,根据多个单位的数据单元的特征变量x和最优决策标签g学习因果模型。
7.根据权利要求6所述的一种个性化决策的因果模型学习方法,其特征在于:所述步骤201中,训练数据集ste中的单位z的决策变量a是随机化产生的,其中,单位z的一个测量结果是数据单元 (x,a,y),x是决策变量a产生前的特征变量,a是决策变量,y是决策变量a产生后单位z的目标变量。
8.根据权利要求6所述的一种个性化决策的因果模型学习方法,其特征在于:所述步骤202中,目标分界点y0由目标分界函数f确定,该函数f的输入为全部用于训练的单位的数据单元的目标变量y,输出为目标变量分界点y0,函数f可为取样本的目标变量y最大m等分点或者取目标变量y区间的最大m等分点,其中,m是决策变量a的可能取值的数量。
9.根据权利要求6所述的一种个性化决策的因果模型学习方法,其特征在于:所述步骤203中,将a=i且y>y0的单位标记为第i组,将a=i且y≤y0的单位根据选定的剩余单位分配方法g=r(a,y)将单位分配到不是i组的其他组,其中,分组总数是m,组标签分别为0,1…m-1,最后,将单位的组标签作为预测变量g,即每个单位的最优决策标签g;选定的剩余单位分配方法g=r(a,y)可为对于a=i且y≤y0的单位等概率随机分配到不是i组的其他组或者按照y值排序后轮流分配到不是i组的其他组。
10.根据权利要求6所述的一种个性化决策的因果模型学习方法,其特征在于:所述步骤204中,根据训练数据集str,单位的特征变量和最优决策标签学习一个预测模型f:x→g,其中,预测模型f的输入x是单位的特征变量,输出是最优决策标签g,根据预测性能学习该因果模型f时,选择具有最高查准率或最高查全率或最大f1-score或最大pr-auc的模型;在使用因果模型f时,针对具体的单位z,根据因果模型f的输出g做出其一一对应的决策a。