一种长文本分类模型训练方法、长文本分类方法及装置与流程

专利2025-06-01  30


本发明涉及机器学习,尤其涉及一种长文本分类模型训练方法、长文本分类方法及装置。


背景技术:

1、目前,基于transformer的语言模型(如bert、roberta等)被广泛应用于文本分类任务,但因这些模型中注意力的计算复杂度与文本长度呈平方关系,且大多数模型支持的文本输入的最大长度为512,因此,这些模型不适用于长文本处理任务。

2、为了应对长文本处理任务,longformer、flash等模型被提出,这些模型使用线性注意力、局部注意力+全局注意力的方式,使得注意力计算复杂度与文本长度呈线性关系,进而可以接受更长的文本输入长度,以拓展模型在长文本上的建模能力。


技术实现思路

1、有鉴于此,本发明实施例提供了一种长文本分类模型训练方法、长文本分类方法及装置,以降低模型信息损失,进而提高模型输出准确性。

2、根据本发明的一方面,提供了一种长文本分类模型训练方法,所述方法包括:

3、将各条训练数据输入至初始长文本分类模型中,所述训练数据为长文本数据,所述训练数据的标签为预设分类标签;

4、利用所述初始长文本分类模型对所述长文本数据进行向量化,得到所述长文本数据对应的目标向量;

5、按照多种预设分块大小对所述目标向量进行分块,得到各分块,并基于各所述分块的局部注意力,得到所述长文本数据的局部注意力;

6、利用预设卷积层对所述目标向量的全局注意力参数进行卷积,并基于卷积后的全局注意力参数得到所述长文本数据的全局注意力,其中,所述全局注意力参数包括全局查询矩阵以及全局键矩阵;

7、基于所述局部注意力以及所述全局注意力输出所述长文本数据的目标分类结果;

8、基于所述目标分类结果以及所述训练数据的预设分类标签之间的损失,对所述初始长文本分类模型进行训练,直至所述损失收敛,得到目标长文本分类模型。

9、在一种可能的实施例中,所述利用所述初始长文本分类模型对所述长文本数据进行向量化,得到所述长文本数据对应的目标向量,包括:

10、在所述长文本数据的长度大于所述初始长文本分类模型的最大输入长度的情况下,按照所述最大输入长度对所述长文本数据进行截断,得到目标文本数据;

11、在所述长文本数据的长度小于所述最大输入长度的情况下,按照所述最大输入长度对所述长文本数据进行补位,得到目标文本数据;

12、获取所述目标文本数据的embedding向量、词向量、位置向量以及段落向量;

13、对所述embedding向量、词向量、位置向量以及段落向量进行拼接,得到所述目标文本数据对应的目标向量。

14、在一种可能的实施例中,所述按照多种预设分块大小对所述目标向量进行分块,得到各分块,并基于各所述分块的局部注意力,得到所述长文本数据的局部注意力,包括:

15、按照多个预设线性变换矩阵对所述目标向量进行仿射变换以及线性变换,得到所述目标向量对应的局部查询矩阵、局部键矩阵以及值矩阵;

16、按照第一预设分块大小对所述目标向量进行分块,得到各第一分块;

17、按照第二预设分块大小对所述目标向量进行分块,得到各第二分块;所述第二预设分块大小与所述第一预设分块大小不同;

18、针对各所述第一分块,基于所述第一分块在所述目标向量中的位置,从所述局部查询矩阵、所述局部键矩阵以及所述值矩阵中获取所述第一分块对应的第一查询矩阵、第一键矩阵以及第一值矩阵;

19、基于所述第一查询矩阵、第一键矩阵以及第一值矩阵计算所述第一分块的第一局部注意力;

20、针对各所述第二分块,基于所述第二分块在所述目标向量中的位置,从所述局部查询矩阵、所述局部键矩阵以及所述值矩阵中获取所述第二分块对应的第二查询矩阵、第二键矩阵以及第二值矩阵;

21、基于所述第二查询矩阵、第二键矩阵以及第二值矩阵计算所述第二分块的第二局部注意力;

22、对所述第一局部注意力以及所述第二局部注意力进行融合,得到所述长文本数据的局部注意力。

23、在一种可能的实施例中,所述方法还包括:

24、按照多个预设线性变换矩阵对所述目标向量进行仿射变换以及线性变换,得到所述目标向量对应的全局查询矩阵、全局键矩阵以及值矩阵;

25、所述利用预设卷积层对所述目标向量的全局注意力参数进行卷积,并基于卷积后的全局注意力参数得到所述长文本数据的全局注意力,包括:

26、利用预设卷积层分别对所述全局查询矩阵以及所述全局键矩阵进行卷积,得到卷积查询矩阵以及卷积键矩阵;

27、基于所述卷积查询矩阵、卷积键矩阵以及所述全局值矩阵,得到所述长文本数据的全局注意力。

28、在一种可能的实施例中,所述基于所述局部注意力以及所述全局注意力输出所述长文本数据的目标分类结果,包括:

29、基于所述局部注意力以及所述全局注意力按照以下公式得到注意力层输出结果:

30、o=(u⊙(alin+αaquad))wo

31、其中,o为注意力层输出,u为对所述目标向量进行线性映射后得到的结果,alin为所述全局注意力,aquad为所述局部注意力,α为预设参数,wo为待训练模型参数;

32、基于所述注意力层输出结果输出所述长文本数据的目标分类结果。

33、根据本发明的另一方面,提供了一种长文本分类方法,所述方法包括:

34、获取目标长文本数据;

35、将所述目标长文本数据输入至预设长文本分类模型中,以使所述预设长文本分类模型对所述目标长文本数据进行向量化,得到所述目标长文本数据对应的目标向量;按照多种预设分块大小对所述目标向量进行分块,得到各分块,并基于各所述分块的局部注意力,得到所述目标长文本数据的局部注意力;利用预设卷积层对所述目标向量的全局注意力参数进行卷积,并基于卷积后的全局注意力参数得到所述目标长文本数据的全局注意力,其中,所述全局注意力参数包括全局查询矩阵以及全局键矩阵;基于所述局部注意力以及所述全局注意力输出所述目标长文本数据的目标分类结果,其中,所述预设长文本分类模型通过如上述任一所述的长文本分类模型训练方法预先训练得到。

36、根据本发明的另一方面,提供了一种长文本分类模型训练装置,所述装置包括:

37、输入模块,用于将各条训练数据输入至初始长文本分类模型中,所述训练数据为长文本数据,所述训练数据的标签为预设分类标签;

38、向量化模块,用于利用所述初始长文本分类模型对所述长文本数据进行向量化,得到所述长文本数据对应的目标向量;

39、局部注意力计算模块,用于按照多种预设分块大小对所述目标向量进行分块,得到各分块,并基于各所述分块的局部注意力,得到所述长文本数据的局部注意力;

40、全局注意力计算模块,用于利用预设卷积层对所述目标向量的全局注意力参数进行卷积,并基于卷积后的全局注意力参数得到所述长文本数据的全局注意力,其中,所述全局注意力参数包括全局查询矩阵以及全局键矩阵;

41、输出模块,用于基于所述局部注意力以及所述全局注意力输出所述长文本数据的目标分类结果;

42、训练模块,用于基于所述目标分类结果以及所述训练数据的预设分类标签之间的损失,对所述初始长文本分类模型进行训练,直至所述损失收敛,得到目标长文本分类模型。

43、根据本发明的另一方面,提供了一种长文本分类装置,所述装置包括:

44、获取模块,用于获取目标长文本数据;

45、计算模块,用于将所述目标长文本数据输入至预设长文本分类模型中,以使所述预设长文本分类模型对所述目标长文本数据进行向量化,得到所述目标长文本数据对应的目标向量;按照多种预设分块大小对所述目标向量进行分块,得到各分块,并基于各所述分块的局部注意力,得到所述目标长文本数据的局部注意力;利用预设卷积层对所述目标向量的全局注意力参数进行卷积,并基于卷积后的全局注意力参数得到所述目标长文本数据的全局注意力,其中,所述全局注意力参数包括全局查询矩阵以及全局键矩阵;基于所述局部注意力以及所述全局注意力输出所述目标长文本数据的目标分类结果,其中,所述预设长文本分类模型通过如上述任一所述的长文本分类模型训练方法预先训练得到。

46、根据本发明的另一方面,提供了一种电子设备,包括:

47、处理器;以及

48、存储程序的存储器,

49、其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述任一所述长文本分类模型训练方法和/或长文本分类方法。

50、根据本发明的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行上述任一所述长文本分类模型训练方法和/或长文本分类方法。

51、本发明实施例中提供的一个或多个技术方案,通过采用多种预设分块大小对目标向量进行分块,并计算各分块的局部注意力,基于各分块的局部注意力得到长文本数据的局部注意力,这样,在利用一个分块大小进行分块所损失的语义信息,可能被利用另一个分块大小进行分块得到的分块的语义信息补足,从而在基于分块计算减少数据计算量的同时,减少分块带来的语义信息损失,提高后续模型输出结果准确性。再有,通过在计算全局注意力时使用卷积层,由于卷积层为利用滑动窗口获取特征,该滑动窗口中包含的特征通常为全局注意力中的部分特征,也即一种局部注意力,这样,通过在计算全局注意力的过程中对局部注意力以及全局注意力进行交互,使得模型学习到尽可能多的训练数据特征,进一步提高模型输出结果准确性。


技术特征:

1.一种长文本分类模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用所述初始长文本分类模型对所述长文本数据进行向量化,得到所述长文本数据对应的目标向量,包括:

3.根据权利要求1所述的方法,其特征在于,所述按照多种预设分块大小对所述目标向量进行分块,得到各分块,并基于各所述分块的局部注意力,得到所述长文本数据的局部注意力,包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述局部注意力以及所述全局注意力输出所述长文本数据的目标分类结果,包括:

6.一种长文本分类方法,其特征在于,所述方法包括:

7.一种长文本分类模型训练装置,其特征在于,所述装置包括:

8.一种长文本分类装置,其特征在于,所述装置包括:

9.一种电子设备,包括:

10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-5或6中任一项所述的方法。


技术总结
本发明提供一种长文本分类模型训练方法、长文本分类方法及装置,包括:对长文本数据进行向量化,按照多种预设分块大小对目标向量进行分块,基于各分块的局部注意力,得到局部注意力;利用预设卷积层对目标向量的全局注意力参数卷积,并基于卷积后的全局注意力参数得到全局注意力,基于局部注意力及全局注意力对初始长文本分类模型训练。通过采用多种预设分块大小对目标向量进行分块,使得在利用一个分块大小分块损失的语义信息,被另一大小的分块补足,减少数据计算量的同时,减少分块带来的语义信息损失,提高模型准确性。再有,通过在计算全局注意力时使用卷积层,实现局部信息与全局信息的交互,进一步提高模型准确性。

技术研发人员:谭金源,吕喆朋,杨青
受保护的技术使用者:度小满科技(北京)有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-24899.html