一种水质分类机器学习模型的特征选择方法

专利2025-04-22  16


本发明涉及特征优化,尤其涉及一种水质分类机器学习模型的特征选择方法。


背景技术:

1、特征选择是影响机器学习算法的重要因素。特征选择不仅是提高机器学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤,可以为模式识别提高好的训练样本。在利用机器学习算法开展沿海水质分类遥感反演中,一般会先找出影响水质污染的主要因子,然后通过各种遥感波段组合以及相关分析等方式选出影响主要污染指标的敏感特征波段并组成原始特征集。特征选择是指通过一定的方法选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高。特征选择目的就是寻找最优特征子集,移除原始特征数据集中不相关或冗余的特征,降低数据集维度,进而提高模型效率和准确率。采用粒子群算法(pso)对特征进行筛选是一种常用的方法,然而对于特征维数很高的特征集,粒子群优化算法的训练速度会非常慢。


技术实现思路

1、本发明的目的在于解决现有技术中对原始特征集进行特征优化速度慢的问题。

2、本发明解决其技术问题所采用的技术方案是:提供一种水质分类机器学习模型的特征选择方法,包括以下步骤:

3、利用相关分析法对收集到的现场水质观测参数和卫星遥感数据进行分析,获得原始特征子集;

4、采用沙普利加性解释法计算原始特征子集中各个特征的贡献值,根据贡献值筛选排序在前面的特征作为初始优化特征子集;

5、采用粒子群算法对初始优化特征子集进行计算优化,得到最优特征子集。

6、优选的,所述利用相关分析法对现场水质观测参数和卫星遥感数据进行分析,具体为:通过相关性分析的方法将卫星遥感数据中不同波段的遥感反射率与污染因子进行相关性分析,寻找相关系数高于预设阈值的敏感特征波段。

7、优选的,所述原始特征子集包括:

8、单波段特征,包括与活性磷酸盐、无机氮或溶解氧的相关系数高于预设阈值的敏感特征波段遥感反射率;

9、波段比特征,采用波段比值法基于单波段特征排列组合构建波段比,选择与活性磷酸盐、无机氮或溶解氧的相关系数高于预设阈值的若干个波段比作为波段比特征;

10、三波段组合特征,包括对所有单波段特征进行排列组合得到的所有三波段组合特征;三波段组合特征表示由三个波段组合而成的特征。

11、优选的,所述三波段组合表示为(x-y)/z,其中,x、y和z表示用于组合三波段组合的单波段特征。

12、优选的,所述原始特征子集还包括光谱指数特征,光谱指数特征包括:

13、归一化波段差浊度指数ndti,表示为:

14、ndti=(b4-b3)/(b4+b3);

15、归一化荧光高度指数nfhi,表示为:

16、nfhi=b4/b3;

17、波段比指数bri,表示为:

18、bri=b5/b4或bri=b8a/b4;

19、其中,b3和b4分别指经过大气校正后的landsat8卫星第3波段和第4波段的遥感反射率或sentinel-2卫星第3波段和第4波段的遥感反射率;b5指经过大气校正后的landsat8卫星第5波段的遥感反射率;b8a指经过大气校正后的sentinel-2卫星第8a波段的遥感反射率。

20、优选的,所述采用沙普利加性解释法计算原始特征子集中各个特征的贡献值,包括:

21、构建一个加性的解释模型,通过计算原始特征子集中各个特征对模型输出的边际贡献作为shap值;

22、对所有特征的shap值进行排序,获得整体重要性排序;

23、对所有特征对不同水质的shap值进行排序,获得分类重要性排序;

24、从原始特征子集中挑选整体重要性排序的前若干特征以及分类重要性排序的前若干特征,作为初始优化特征子集。

25、优选的,所述采用粒子群算法对初始优化特征子集进行计算优化,采用粒子群优化算法和支持向量机算法结合的方法,把svm算法的分类精度作为粒子群优化算法的适应度函数,寻找最高分类精度时的分类特征集。

26、优选的,所述支持向量机采用非线性支持向量机,通过对支持向量机的可调参数惩罚参数c、核函数kernel和核函数系数gamma进行调优来实现特征优化。

27、优选的,所述采用粒子群算法对初始优化特征子集进行计算优化,具体为:将初始优化特征子集代入粒子群算法中进行训练,利用网格搜索的方法确定模型的最优参数,并设置支持向量机的可调参数惩罚参数c和核函数kernel;粒子群算法随机初始化粒子的速度和位置,计算粒子的适应度函数值,根据粒子群算法的更新公式不断更新粒子的个体极值和全局极值,寻找最优解,以最优解对应的特征作为最优特征子集。

28、本发明在特征选择过程中充分发挥了shap算法和粒子群优化算法的优势,结合支持向量机的强大分类能力,大幅提升了沿海水质分类遥感模型的性能和应用价值,具体包括如下

29、有益效果:

30、(1)本发明采用shap-pso粒子群优化算法来筛选机器学习算法所需的最优特征子集,显著提升了沿海水质分类遥感模型的精度;对于特征维数很高的特征集,粒子群优化算法的训练速度会非常慢,因此先利用沙普利加性解释算法(shap算法)获取初始优化特征子集,然后再代入粒子群优化算法对特征子集进行筛选,可以提高训练速度;通过采用shap算法还可以解释和量化每个特征对模型输出的贡献度,使得特征选择过程更加透明和可解释,不仅能够提升模型的可信度,也便于发现潜在的重要环境因子,促进对沿海水质污染问题的深入理解和研究;

31、(2)本发明的粒子群优化算法结合了支持向量机(svm),通过svm模型评估每个粒子的适应度,使得特征选择过程更加精确和高效;支持向量机的高维数据处理能力和分类性能能够确保在筛选特征子集时准确识别出对分类结果有贡献的特征,从而进一步提高模型的预测性能;

32、(3)本发明提供的特征选择流程,从原始特征的选取、初始优化特征子集的筛选到最优特征子集的确定,层层优化,确保能为机器学习算法提供优质的训练样本特征集合,减少了冗余和不相关特征的干扰,有效降低了模型的复杂度;这种特征选择方法提高了模型训练的效率和速度,适用于大规模高维数据集的处理,有助于加速沿海水质分类遥感反演模型的开发和部署,满足实际应用中的实时性要求。

33、以下结合附图及实施例对本发明作进一步详细说明,但本发明不局限于实施例。



技术特征:

1.一种水质分类机器学习模型的特征选择方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的水质分类机器学习模型的特征选择方法,其特征在于,所述利用相关分析法对现场水质观测参数和卫星遥感数据进行分析,具体为:通过相关性分析的方法将卫星遥感数据中不同波段的遥感反射率与污染因子进行相关性分析,寻找相关系数高于预设阈值的敏感特征波段。

3.根据权利要求2所述的水质分类机器学习模型的特征选择方法,其特征在于,所述原始特征子集包括:

4.根据权利要求3所述的水质分类机器学习模型的特征选择方法,其特征在于,所述三波段组合表示为(x-y)/z,其中,x、y和z表示用于组合三波段组合的单波段特征。

5.根据权利要求3所述的水质分类机器学习模型的特征选择方法,其特征在于,所述原始特征子集还包括光谱指数特征,光谱指数特征包括:

6.根据权利要求1所述的水质分类机器学习模型的特征选择方法,其特征在于,所述采用沙普利加性解释法计算原始特征子集中各个特征的贡献值,包括:

7.根据权利要求1所述的水质分类机器学习模型的特征选择方法,其特征在于,所述采用粒子群算法对初始优化特征子集进行计算优化,采用粒子群优化算法和支持向量机算法结合的方法,把svm算法的分类精度作为粒子群优化算法的适应度函数,寻找最高分类精度时的分类特征集。

8.根据权利要求7所述的水质分类机器学习模型的特征选择方法,其特征在于,所述支持向量机采用非线性支持向量机,通过对支持向量机的可调参数惩罚参数c、核函数kernel和核函数系数gamma进行调优来实现特征优化。

9.根据权利要求8所述的水质分类机器学习模型的特征选择方法,其特征在于,所述采用粒子群算法对初始优化特征子集进行计算优化,具体为:将初始优化特征子集代入粒子群算法中进行训练,利用网格搜索的方法确定模型的最优参数,并设置支持向量机的可调参数惩罚参数c和核函数kernel;粒子群算法随机初始化粒子的速度和位置,计算粒子的适应度函数值,根据粒子群算法的更新公式不断更新粒子的个体极值和全局极值,寻找最优解,以最优解对应的特征作为最优特征子集。


技术总结
本发明公开了一种水质分类机器学习模型的特征选择方法,包括以下步骤:利用相关分析法对收集到的现场水质观测参数和卫星遥感数据进行分析,获得原始特征子集;采用沙普利加性解释法(SHAP)计算原始特征子集中各个特征对水质分类机器学习模型的贡献值,根据贡献值筛选排序在前面的特征作为初始优化特征子集;采用粒子群算法(PSO)对初始优化特征子集进行计算优化,得到最优特征子集。本发明设计了SHAP‑PSO优化算法来筛选机器学习算法所需的最优特征子集,显著提升了沿海水质分类遥感模型的精度。

技术研发人员:张彩云,刘睿
受保护的技术使用者:厦门大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23727.html