基于机器学习的厄尔尼诺拉尼娜长时间预测方法与流程

专利2026-07-01 1

本发明涉及再分析、卫星遥感的海洋和大气参数的多源异构数据处理、厄尔尼诺/拉尼娜极端天气预测技术、机器学习预测领域，尤其涉及一种基于机器学习的厄尔尼诺/拉尼娜长时间预测方法。

背景技术：

1、目前，厄尔尼诺/拉尼娜事件的发生、发展影响着全球的大气温度和极端降水变化，可引起全球性气候异常，造成众多地区发生严重的旱涝、高温或低温冰雪灾害，导致许多国家的工农业生产和人民生命财产遭受巨大损失。例如，厄尔尼诺/拉尼娜现象的发生和演变对我国华北地区的降雨量有着密切的影响，对华北地区汛期旱涝灾害的防治有重要的指导意义，全球变暖叠加厄尔尼诺/拉尼娜影响，导致极端天气气候事件发生的频次更多、范围更广、强度更强。

2、传统的统计预测方面(如线性回归等)对于厄尔尼诺/拉尼娜现象中的线性演变过程具有较好的预测效果，但是复杂的海洋大气耦合模式运算量大，涉及物理过程复杂，难以对海洋和大气多参数相互作用中的非线性过程进行良好刻画，尤其是18个月及以上的预测表现有待进一步提升。如何实现厄尔尼诺/拉尼娜发生时间、发展过程、变化特征的长时间准确预测，对于我国汛期的防灾减灾的预防及准备工作具有重要意义。

技术实现思路

1、为此，本发明提供一种基于机器学习的厄尔尼诺/拉尼娜长时间预测方法，该方法通过优化海洋和大气参数组合作为预报因子，热带和副热带、太平洋和大西洋、海洋和大气物理量组合设置预报因子的方式提高了对厄尔尼诺/拉尼娜长时间预测的时间及准确度。

2、为了实现上述目的，本发明提供如下技术方案：一种基于机器学习的厄尔尼诺/拉尼娜长时间预测方法，包括：

3、海洋和大气参数数据预处理阶段，构建预报因子归一化和标准化数据集，对所述历史海洋和大气参数进行数据预处理，构建海洋和大气参数数据集，所述历史海洋参数包括海表面温度和海面高度，所述历史大气参数包括经向风场、纬向风场和向外长波辐射物理量。所述数据预处理包括异常值剔除、统一时空尺度，得到数据预处理后的长时序海洋和大气参数数据集；所述数据预处理的统一时空尺度过程中，将海洋和大气参数数据集中的海洋大气参数数据统一处理为1度×1度空间分辨率和逐月的时间分辨率；对数据预处理后的所述海洋和大气参数数据集中的海洋和大气参数预测因子进行距平计算和归一化处理，对每个数据的每个特征采用缩放器进行零中心化，将其数值范围都归一化到[-1,1]范围之内，加快收敛效率，得到归一化处理后的8个海洋和大气参数数据集；同时，由于参与运算的多种历史海洋参数和大气参数具有不同的量纲，故对数据预处理后的所述海洋和大气参数数据集中的海洋和大气参数进行数据标准化，然后对数据标准化后的海洋大气参数数据进行分析。

4、预报因子组合设置阶段，构建海洋和大气参数的预报因子数据集，选取对厄尔尼诺/拉尼娜发生发展过程敏感的海洋和大气参数关键区域，构建热带和副热带厄尔尼诺/拉尼娜预测因子组合，作为后续长短期记忆网络厄尔尼诺/拉尼娜模型的数据输入场之一；构建厄尔尼诺/拉尼娜指数预报因子组合数据集，所述预报因子数据集中热带预报因子包括范围为4和3关键区(160°e-90°w,5°s-5°n)的海表面温度距平，海面高度距平(160°e-90°w,5°s-5°n)、经向风场距平(160°e-90°w,5°s-5°n)、纬向风场距平(160°e-90°w,5°s-5°n)、向外长波辐射预报因子为向外长波辐射距平(160°e-160°w,5°s-5°n)，副热带预报因子包括西北太平洋海表面温度距平(90°e-150°w,10°s-30°n)、南太平洋海表面温度距平(90°e-150°w,10°s-30°n)、热带及北大西洋海表面温度距平(eq-15°n,90°w-20°e)。预报因子组合包括热带太平洋关键海区海表面温度距平、海面高度距平、纬向风场距平、经向风场距平、热带太平洋和西北太平洋海表面温度距平组合预报因子、热带太平洋和北大西洋海表面温度距平组合预报因子、热带太平洋和南太平洋海表面温度组合预报因子。根据气候预测中心提供的厄尔尼诺/拉尼娜判识指数方法设计，计算与预报因子相同时间范围的3.4区域(120°w-170°w,5°s-5°n)三个月滑动平均的海表面温度距平指数，作为诊断厄尔尼诺/拉尼娜事件发生的标签数据。将海洋和大气参数预测因子和厄尔尼诺/拉尼娜判识指数按比例划分为训练数据集和测试数据集；训练数据集长度占总数据的85％，测试数据集长度占总数据的15％。海洋和大气参数预报因子和厄尔尼诺/拉尼娜指数的标签数据在训练数据和测试数据中互相对应。

5、构建多层级长短期记忆神经网络的厄尔尼诺/拉尼娜长时间预测模型，初始化长短期记忆神经网络预测模型并开始训练；将海洋大气参数预测因子数据集按比例划分为机器学习预测模型的训练数据集和测试数据集两个部分，厄尔尼诺/拉尼娜判识指数的标签数据按比例划分为训练数据集和测试数据集两个部分，与预报因子的训练数据集和测试数据集对应；通过均方根误差损失函数对厄尔尼诺指数预测模型进行训练；对海洋和大气物理量进行多时空尺度的特征提取，设计海洋和大气敏感区域预测因子组合，将通过所述海洋和大气预报因子、热带-副热带预报因子、3.4关键区海表面温度距平3个月滑动平均标签分别输入到训练好的厄尔尼诺/拉尼娜指数预测模型中，通过厄尔尼诺/拉尼娜指数预测模型进行起止时间、变化过程、强度演变预测，利用海洋和大气相互作用的物理机制约束加强不同海洋和大气物理量特征在预测厄尔尼诺/拉尼娜指数的一致性，利用海洋大气相互作用特征对厄尔尼诺/拉尼娜指数进行预测。

6、长短期记忆网络训练阶段，厄尔尼诺/拉尼娜指数预测模型的输入层由两部分组成，一部分为海洋和大气参数预报因子，隐含层的输入节点为361，隐藏节点为24，另一部分为3.4关键区域三个月滑动平均的厄尔尼诺/拉尼娜判识指数，输出节点为18。海洋和大气预报因子经过激活函数tanh的全连接层，全连接层后接dropout层为0.5的dropout层用于防止过拟合。模型损失函数采用均方根误差进行梯度下降迭代训练。输入门、遗忘门、输出门函数需进行权重系数的调整，默认为20。网络训练每次迭代权重调整比例为0.01；误差的阈值为0.000001。绘制误差损失函数结果图，检验预测结果逐渐收敛稳定至最小值时为最优模型结果。

7、长短期记忆网络厄尔尼诺/拉尼娜模型的记忆单元包括3个门收集控制信息，分别为输入门i<t>、遗忘门f<t>、输出门o<t>。门控循环单元主要用于保护单元不受其他单元的信息影响。σ为内部激活函数，采用tanh；h为目标函数，w为权重矩阵，x为输入函数。⊙代表点乘符号。

8、遗忘门：f<t>＝σ(x1*wxfx<t>+x2*whfx<t-1>+bf)

9、输入门：i<t>＝σ(x3*wxix<t>+x4*whix<t-1>+bi)

10、输出门：o<t>＝σ(x5*wxox<t>+x6*whoh<t-1>+bo)

11、神经元：c<t>＝f<t>⊙c<t-1>+i<t>⊙tanh(wxcx<t>+whch<t-1>+bc)

12、目标函数：h<t>＝o<t>tanh⊙(c<t>)

13、式中，σ为sigmoid函数，范围为[0，1]，为控制门的激活函数；tanh为tanh函数，为计算状态时的激活函数，范围为[-1，1]，用于作为标准神经网络的激活函数，用于避免前向传播时发生数值问题，利于模型的快速收敛。x<t>为输入数据。h<t-1>为历史数据通过上一个神经元计算。h<t>为该神经元计算的数据。c<t-1>为上一个神经元的记忆数据。c<t>这个神经元计算得到的记忆数据。wxf、whf为遗忘门的权重矩阵，bf是遗忘门的偏置项。wxi、whi为输入门的权重矩阵，bi是输入门的偏置项。wxo、who为输出门的权重矩阵，bo为输出门的偏置项。x1～x6为自适应系数，根据训练场的数据量及参数配置调整。

14、长短期记忆网络测试阶段，通过将测试预测因子数据和标签数据输入厄尔尼诺/拉尼娜长短期记忆神经网络预测模型进行测试，得到测试后的最优厄尔尼诺/拉尼娜预测模型及预测结果；利用最优厄尔尼诺/拉尼娜预测模型结合实时监测的海洋参数和大气参数对指定区域的厄尔尼诺/拉尼娜现象进行预测。得到的预测结果与海洋尼诺指数进行精度评估，最终得到未来18个月的厄尔尼诺/拉尼娜指数预测模型。将通过厄尔尼诺/拉尼娜预测模型得到未来18个月的预测指数与海洋尼诺指数进行诊断和精度评估。海洋尼诺指数为参考美国国家海洋和大气管理局气候预测中心基于ersstv5产品，通过计算3.4区海表面温度距平3个月滑动平均得到的厄尔尼诺/拉尼娜判识指标。当指数大于0.5℃且持续5个月以上，则确定为厄尔尼诺事件；相反，当指数小于-0.5℃且持续5个月以上，则确定为拉尼娜事件。该预测模型能够一年以上预测厄尔尼诺/拉尼娜事件的发生，并由此诊断分析可能带来的区域性或全球的气候影响。输出的预测结果与海洋尼诺指数进行对比评估，计算相关系数(cc)、均方根误差(rmse)、偏差(bias)、标准差(s)、绝对误差(mae)等。衡量厄尔尼诺/拉尼娜预测模型精度时，均方根误差和绝对误差值越低，表示预测模型对于厄尔尼诺/拉尼娜判识指数的精度越高；相关系数结果范围在0至1之间，其越接近1，表示预测模型预测的厄尔尼诺/拉尼娜判识指数的精度越高。

15、相关系数的表达公式为：

16、

17、均方根误差的表达公式为：

18、

19、偏差的表达公式为：

20、

21、标准差的表达公式为：

22、

23、绝对误差的表达公式为：

24、

25、式中，n代表参与运算的总海洋及大气参数数据格点数，xr代表通过长短期记忆神经网络预测模型后得到的未来18个月厄尔尼诺/拉尼娜预测指数，xo代表气候预测中心提供方法设计计算得到的厄尔尼诺/拉尼娜判识指数，μ为平均数。

26、本发明具有如下优点：通过获取历史卫星遥感、再分析等海洋参数和大气参数资料形成海洋和大气参数数据集，所述历史海洋参数包括海表面温度和海面高度，所述历史大气参数包括经向风场、纬向风场和向外长波辐射；对历史海洋和大气参数进行数据预处理，所述数据预处理包括异常值剔除和统一时空尺度，得到数据预处理后的海洋和大气参数距平数据集；对数据预处理后的所述海洋和大气参数距平数据进行归一化和标准化处理，得到归一化和标准化处理后的海洋和大气参数数据集；对所述海洋和大气参数数据集进行预测因子构建，预测因子包括热带预测因子和副热带预测因子；将预测因子构建后的海洋和大气参数数据集按比例划分为训练数据集和测试数据集；通过所述训练数据集对长短期记忆神经网络进行训练调参得到初级厄尔尼诺/拉尼娜预测模型，通过所述测试数据集对训练调参后的初级厄尔尼诺/拉尼娜预测模型进行测试得到测试后的最优厄尔尼诺/拉尼娜预测模型；利用最优厄尔尼诺/拉尼娜预测模型结合实时监测的海洋参数和大气参数对指定区域的厄尔尼诺/拉尼娜现象进行预测。本发明能够得到未来18个月的厄尔尼诺/拉尼娜预测结果，并与海洋厄尔尼诺/拉尼娜指数进行对比评估，其中热带太平洋海表面温度和西北太平洋海表面温度距平预报因子设置的组合在未来18个月具有更好的预测技巧，与海洋厄尔尼诺/拉尼娜指数的相关系数达最高并通过显著性检验，能够监测到厄尔尼诺/拉尼娜发生发展过程中海洋和大气的非线性相互作用特征，提高厄尔尼诺/拉尼娜现象长时间预测分析的准确度。

技术特征：

1.基于机器学习的厄尔尼诺/拉尼娜长时间预测方法，其特征在于，包括：

2.根据权利要求1所述的基于机器学习的厄尔尼诺/拉尼娜长时间预测方法，其特征在于，初始化长短期记忆神经网络预测模型并开始训练，通过均方根误差损失函数对模型进行训练；将预处理好的历史海洋和大气预报因子数据集和厄尔尼诺/拉尼娜诊断指数的标签数据分别输入到长短期记忆神经网络厄尔尼诺/拉尼娜预测模型中；长短期记忆神经网络预测模型的泛化，将数据的输入和输出分开排布，将输入进行变换并传入预测函数中进行逐步预测，得到的预测值对其进行逆缩放和逆差分，并将其还原到原始数值范围，对全数据集数据遍历，保存计算得到的预测指数数据；通过所述长短期记忆神经网络厄尔尼诺/拉尼娜预测模型对厄尔尼诺/拉尼娜事件发生的时间、振幅强度、发展过程的指数变化特征进行预测。

3.根据权利要求2所述的基于机器学习的厄尔尼诺/拉尼娜长时间预测方法，其特征在于，所述的海洋和大气参数数据预处理的统一时空尺度过程中，进行异常值剔除和统一时空尺度处理，将海洋和大气参数数据集中的海洋大气参数数据统一处理为1度×1度的空间分辨率和逐月的时间分辨率，并进行距平运算和归一化运算，得到归一化处理后的8个海洋和大气参数的数据集；同时，由于参与运算的多种历史海洋参数和大气参数具有不同的量纲，故对数据预处理后的所述海洋和大气参数数据集中的海洋和大气参数进行数据标准化，然后对数据标准化后的海洋大气参数数据进行分析。

4.根据权利要求3所述的基于机器学习的厄尔尼诺/拉尼娜长时间预测方法，其特征在于，所述的预报因子组合模型设计阶段，其特征在于，对归一化和标准化后的海洋大气参数数据进行分析，包括：对历史海洋参数和大气参数进行厄尔尼诺/拉尼娜变化敏感的关键区域提取，其中热带预报因子的海表面温度指数定义及范围为4和3关键区海表面温度距平，海面高度预报因子为160°e至90°w及南北纬5°范围的海面高度距平，纬向风预报因子为160°e至90°w及南北纬5°范围的纬向风距平，经向风预报因子为160°e至90°w及南北纬5°范围的经向风距平，向外长波辐射预报因子为160°e至160°w及南北纬5°范围的向外长波辐射距平，北大西洋预报因子为热带太平洋海温和北大西洋海温距平，北大西洋海温距平覆盖赤道至15°n,90°w至20°e，西北太平洋预报因子为热带太平洋海温和西北太平洋海温距平，西北太平洋海温距平覆盖90°e至150°w和10°s至30°n，南太平洋预报因子为热带太平洋海温和南太平洋海温距平，南太平洋海温距平覆盖150°e至75°w和20°s至65°s；对海洋和大气相互作用的厄尔尼诺/拉尼娜指数进行统计运算，得到海洋和大气预测因子数据集；对3.4关键区域的海表面温度进行距平及滑动三个月平均运算后，得到厄尔尼诺/拉尼娜诊断判识指数数据，作为长短期记忆神经网络厄尔尼诺/拉尼娜预测模型的标签数据集。

5.根据权利要求5所述的基于机器学习的厄尔尼诺/拉尼娜长时间预测方法，其特征在于，所述的长短期记忆网络测试阶段，其特征在于，将所述海洋和大气参数数据按比例划分为训练数据集和测试数据集两个部分；训练数据集长度占总数据的85％，测试数据集长度占总数据的15％，海洋和大气参数预报因子和厄尔尼诺/拉尼娜指数的标签数据在训练数据和测试数据中互相对应；将测试数据输入到训练好的长短期记忆网络厄尔尼诺/拉尼娜指数预测模型中，得到的预测结果与海洋尼诺指数进行相关系数、均方根误差、偏差、标准差、绝对误差精度评估，得到未来18个月的厄尔尼诺/拉尼娜指数，该指数反映了厄尔尼诺/拉尼娜事件的起止时间、变化过程、强度演变，当指数大于0.5℃且持续5个月以上，则确定为厄尔尼诺事件；相反，当指数小于-0.5℃且持续5个月以上，则确定为拉尼娜事件，该预测模型能够一年以上预测厄尔尼诺/拉尼娜事件的发生，并由此诊断分析可能带来的区域性或全球的气候影响；

技术总结
本发明公开了一种基于机器学习的厄尔尼诺/拉尼娜长时间预测方法，该方法构建长时序海气参数数据集，异常值剔除和统一时空尺度预处理后计算得到海气参数距平场，归一化和标准化处理后构建预测因子数据集，生成热带‑副热带跨纬度、太平洋‑大西洋跨洋盆的预测因子库；结合均方根误差损失函数对长短期记忆神经网络训练，优化参数设置得到最优厄尔尼诺/拉尼娜预测模型；利用该模型对厄尔尼诺/拉尼娜现象预测，预测指数与气候预测中心的海洋尼诺指数对比评估。本发明通过系统构建最优海洋‑大气、热带‑副热带预测因子组合，强化海气相互作用过程在厄尔尼诺/拉尼娜预测模型中的贡献，优化并提高厄尔尼诺/拉尼娜预测的时间及准确度。

技术研发人员：宋晚郊,刘芸芸,毛冬艳,袁智,孙凌,方萌
受保护的技术使用者：国家卫星气象中心（国家空间天气监测预警中心）
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-32113.html