本发明主要涉及数据处理相关,具体是一种基于transformer架构的自然语言处理模型的训练方法。
背景技术:
1、自然语言处理技术近年来取得了显著进展,尤其是在深度学习模型的推动下,transformer等大规模预训练模型(如bert、gpt、t5)显著提升了计算机对人类语言的理解能力。这类模型通过自注意力机制可以处理长文本,捕捉复杂的语义依赖关系,使得人机交互中的自然语言理解能力大幅增强。然而,现有的自然语言处理技术在实际应用中仍存在一定局限性。
2、现有技术中,传统的基于transformer网络架构的自然语言处理模型在处理长文本和复杂语义时表现不佳,难以准确捕捉全局语义关系和复杂指令的核心意图,容易导致任务解析误差,在自然语言训练过程中,采用传统的梯度下降法和其变体算法容易在高维参数空间中出现梯度消失、梯度爆炸,或者陷入局部最优解,影响模型的训练效率和性能表现,同时,固定学习率的方式也无法动态适应模型的训练过程。
3、现有技术中,基于transformer网络架构的自然语言处理模型在任务分类和意图解析时,对新数据和复杂任务的泛化能力较弱,模型容易在特定领域表现良好,但在处理更广泛、多样的任务时效果下降。
技术实现思路
1、为解决目前技术的不足,本发明结合现有技术,从实际应用出发,提供一种基于transformer架构的自然语言处理模型的训练方法,通过优化transformer的核心算法提升模型在任务理解和语义分析上的精度,方法能够捕捉复杂的语义关系,使得自然语言的处理更加智能化。
2、本发明的技术方案如下:
3、基于transformer架构的自然语言处理模型的训练方法,包括步骤:获取输入的文本数据并进行预处理,将预处理后的文本送入基于transformer网络架构的自然语言处理模型进行训练,transformer网络架构的前馈网络的训练采用动态自适应神经优化算法,步骤如下:
4、s11、设定前馈网络的初始参数,初始参数包括初始权重、初始偏差,定义影响前馈网络参数调整的控制参数;
5、s12、进行前馈网络的迭代训练,根据迭代次数动态调整控制参数,采用衰减函数模拟物理系统中的能量耗散;
6、s13、利用当前前馈网络参数和控制参数,通过动态自适应函数计算状态变量;
7、s14、将状态变量通过非线性函数转换,生成新的参数更新方向,同时,采用随机脉冲干扰法策略实施随机干扰;
8、s15、根据转换后的状态变量和既定的学习率更新前馈网络参数权重和偏置,同时,采用自适应阈值动态调整机制根据模型的当前性能自动调整关键参数的更新阈值;
9、s16、在每次迭代后,通过计算前馈网络的损失函数评估当前模型在验证集上的性能;
10、s17、基于性能评估的结果调整扩展系数和前馈网络权重的学习率,优化后续迭代的性能。
11、进一步,步骤s12中,控制参数调整公式表示如下:
12、
13、式中,为平滑系数;为第t次迭代的前馈网络的控制参数;为当前迭代次数,为前馈网络控制参数的初始值;
14、步骤s13中,动态自适应函数计算状态变量方式表示如下:
15、
16、式中,表示第次迭代的状态变量;为双曲正切函数;是扩展系数;为第次迭代的前馈网络的权重。
17、进一步,步骤s14中,将状态变量通过非线性函数转换,以生成新的参数更新方向,具体为:
18、利用状态变量计算下一步的权重更新方向,表示为:
19、
20、式中,为前馈网络的权重更新方向;是前馈网络的权重的学习率;为第次迭代的脉冲干扰项;
21、脉冲干扰项的计算方式表示如下:
22、
23、式中,是干扰强度系数,是一个取值为{0,1}的随机变量,按照概率生成;是概率阈值;是符号函数,的作用是保证干扰方向与状态变量的符号相同,以维持更新的一致性方向。
24、进一步,步骤s15中,根据转换后的状态变量和既定的学习率更新前馈网络参数权重和偏置,更新方式表示如下:
25、
26、
27、式中,是第次迭代的前馈网络的损失函数,是前馈网络偏置的学习率,是损失函数关于偏置的梯度;为第次迭代的前馈网络的权重;为第次迭代的前馈网络的偏置;为第次迭代的前馈网络的偏置;为第次迭代的自适应阈值;
28、自适应阈值计算方式表示如下:
29、
30、式中,是目标损失值,是调整阈值敏感度的超参数;
31、步骤s16中,前馈网络的损失函数表示如下:
32、
33、式中,是第个输入到前馈网络的样本的真实值,是第次迭代模型对是第个输入到前馈网络的样本的预测值,是当前批次输入到前馈网络的样本数量。
34、进一步,步骤s17中,扩展系数和前馈网络的权重的学习率调整方式表示如下:
35、
36、
37、式中,为第次迭代的扩展系数,为第次迭代的前馈网络的权重的学习率;为第次迭代的扩展系数,为第次迭代的前馈网络的权重的学习率;是第一性能调整系数,是第二性能调整系数。
38、进一步,使用transformer网络架构对输入文本进行上下文感知的语义分析后,通过任务意图分类算法将用户指令分类到特定的任务类型,其中所述任务意图分类算法采用基于路径积分的多层极限学习机分类算法,在传统的极限学习机的基础上,利用费曼路径积分策略建立从输入特征到输出分类结果的概率幅度模型。
39、进一步,基于路径积分的多层极限学习机分类算法的训练步骤如下:
40、s21、初始化设置多层极限学习机,随机初始化多层极限学习机的权重和偏置,利用混沌映射函数增加参数的多样性和模型的鲁棒性;
41、s22、将transformer网络架构输出的特征输入到多层极限学习机分类器中;
42、s23、利用费曼路径积分的方法,计算输入特征到输出结果所有可能路径的概率幅度,对这些路径求和,得到整体的概率振幅;
43、s24、在多层极限学习机中,通过前向传播的方式依次计算每一层的输出,输出层的权重根据输入数据进行调整;
44、s25、计算多层极限学习机的损失函数,衡量模型预测结果与真实标签之间的差距,多层极限学习机的损失函数考虑分类误差以及费曼路径积分的相位信息;
45、s26、利用拓扑孤子优化算法对模型的输出层权重进行优化,通过模拟孤子在非线性介质中的传播,寻找最优的参数配置,拓扑孤子方程基于非线性薛定谔方程进行计算,利用孤子解更新多层极限学习机的参数;
46、s27、重复迭代上述步骤,直至满足预设的停止迭代条件,完成训练。
47、进一步,步骤s21中,混沌映射函数表示如下:
48、
49、式中,为第次迭代的混沌变量;为第次迭代的混沌变量;为混沌映射的控制参数,为调制参数;为迭代次数;
50、利用混沌变量对权重进行初始化,表示为:
51、
52、式中,为多层极限学习机第层的权重;为多层极限学习机的缩放因子;为多层极限学习机的权重偏移量;
53、步骤s23中,样本的路径积分概率幅度计算方式如下:
54、
55、式中,为第个样本的路径积分概率幅度;为虚数单位;为缩放常数;为作用量函数;为系统状态随当前迭代次数的变化路径;为当前多层极限学习机训练的迭代次数;表示对所有可能路径进行积分。
56、进一步,步骤s24中,对于第层学习机,其输出表示为:
57、
58、式中,为第层的输出向量;为第层的输出向量,为多层极限学习机的激活函数,为多层学习机第层的偏置;
59、多层极限学习机的激活函数计算方式如下:
60、
61、式中,为输入复数;和分别为的实部和虚部;为实值激活函数;为相位参数,为虚数单位;
62、相位参数与输入特征关联,计算方式如下:
63、
64、式中,为自适应相位参数激活函数,计算方式如下:
65、
66、式中,为可学习参数;为sigmoid激活函数。
67、进一步,步骤s25中,多层极限学习机的损失函数的计算方式如下:
68、
69、式中,为多层极限学习机的损失函数;为第个样本的真实标签;为多层极限学习机的权衡系数;为目标路径积分概率幅度;为多层极限学习机的正则化系数,为训练样本总数,为第个样本的预测概率密度,计算方式如下:
70、
71、式中,为的复共轭,为第个样本的波函数;
72、步骤s26中,拓扑孤子方程基于非线性薛定谔方程进行计算,表示如下:
73、
74、式中,为波函数;为虚拟空间变量;为当前迭代次数;为非线性系数,为虚数单位。
75、本发明的有益效果:
76、1、本发明所提供的训练方法,采用了transformer架构的预训练模型进行深度语义解析,在transformer的前馈网络训练过程中,采用动态自适应神经优化算法,通过模拟自然界中的稳态动力系统,动态调整网络参数,有效避免了传统梯度下降法中的梯度消失和局部最优问题,从而提高了模型的训练效率和泛化能力;
77、为了避免模型在优化过程中陷入局部最优解,系统采用了随机脉冲干扰策略,通过在训练过程中引入随机干扰,增强了模型在不同参数空间中的搜索能力,从而提升模型的全局搜索性能;
78、通过优化transformer的核心算法提升模型在任务理解和语义分析上的精度,系统能够捕捉复杂的语义关系,使得自然语言的处理更加智能化。
79、2、本发明所提供的训练方法,在任务意图分类过程中,提出基于费曼路径积分的多层极限学习机算法,通过计算输入特征的所有可能路径的概率幅度,结合量子力学中的路径积分原理来指导分类,能够更好地捕捉复杂任务指令的潜在关联,提升了任务分类的准确度,故而可以将复杂的多步骤任务进行自动化分解。
1.基于transformer架构的自然语言处理模型的训练方法,包括步骤:获取输入的文本数据并进行预处理,将预处理后的文本送入基于transformer网络架构的自然语言处理模型进行训练,其特征在于,transformer网络架构的前馈网络的训练采用动态自适应神经优化算法,步骤如下:
2.根据权利要求1所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,步骤s12中,控制参数调整公式表示如下:
3.根据权利要求2所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,步骤s14中,将状态变量通过非线性函数转换,以生成新的参数更新方向,具体为:
4.根据权利要求3所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,步骤s15中,根据转换后的状态变量和既定的学习率更新前馈网络参数权重和偏置,更新方式表示如下:
5.根据权利要求4所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,步骤s17中,扩展系数和前馈网络的权重的学习率调整方式表示如下:
6.根据权利要求1-5任一项所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,使用transformer网络架构对输入文本进行上下文感知的语义分析后,通过任务意图分类算法将用户指令分类到特定的任务类型,其中所述任务意图分类算法采用基于路径积分的多层极限学习机分类算法,在传统的极限学习机的基础上,利用费曼路径积分策略建立从输入特征到输出分类结果的概率幅度模型。
7.根据权利要求6所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,基于路径积分的多层极限学习机分类算法的训练步骤如下:
8.根据权利要求7所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,步骤s21中,混沌映射函数表示如下:
9.根据权利要求8所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,步骤s24中,对于第层学习机,其输出表示为:
10.根据权利要求9所述的基于transformer架构的自然语言处理模型的训练方法,其特征在于,步骤s25中,多层极限学习机的损失函数的计算方式如下: