模型训练、数据处理方法、装置、设备、介质及程序产品与流程

专利2025-11-13 30

本技术涉及人工智能领域，尤其涉及一种模型训练、数据处理方法、装置、设备、介质及程序产品。

背景技术：

1、近年来，人工智能技术的不断发展和进步，给人们的生活带来了很大的便利。其中，基于人工智能技术的大语言模型的应用尤为广泛，例如应用在各类聊天机器人、智能助手以及各类内容生成产品中，大语言模型的广泛应用提升了人们在多个领域的知识获取的体验。

2、由于用户对大语言模型所输出的答案的准确性以及答案与对应问题的相关性的要求不断提高，因此，亟需在模型训练的过程中，尽力的挖掘模型的自身能力，从而提高大语言模型的准确性，进而使大语言模型输出的答案质量更高。

技术实现思路

1、本技术实施例提供了一种模型训练、数据处理方法、装置、设备、介质及程序产品，用于提高模型的准确性并实现模型在多轮自对齐的过程中不崩塌。

2、有鉴于此，本技术一方面提供一种模型训练方法，包括：获取n个训练问答数据集、问题示例集、验证集和初始模型，其中，每个训练问答数据集具有不同的训练问答数据，问题示例集包括m个问题示例，n和m为正整数；利用第一训练问答数据集和问题示例集对初始模型进行训练，以得到第一模型，其中，第一训练问答数据集是n个训练问答数据集中的一个数据集；利用验证集对第一模型进行验证处理，以得到崩塌概率值；在崩塌概率值小于阈值时，利用第二训练问答数据集和问题示例集对第一模型进行训练，以得到第二模型，其中，第二训练问答数据集是n个训练子集中不同于第一训练问答数据集的一个数据集，且第二训练问答数据集的困惑度高于第一训练问题数据集的困惑度；利用该验证集对该第二模型进行验证处理，以更新该崩塌概率值；重复上述操作，直至目标模型在验证集上的崩塌概率值大于或者等于阈值，输出目标模型。

3、本技术另一方面提供一种模型训练装置，包括：获取模块，用于获取n个训练问答数据集、问题示例集、验证集和初始模型，其中，每个训练问答数据集具有不同的训练问答数据，该问题示例集包括m个问题示例，该n和该m为正整数；

4、处理模块，用于利用第一训练问答数据集和该问题示例集对该初始模型进行训练，以得到第一模型，其中，该第一训练问答数据集是该n个训练问答数据集中的一个数据集；利用该验证集对该第一模型进行验证处理，以得到崩塌概率值；在该崩塌概率值小于阈值时，利用第二训练问答数据集和该问题示例集对该第一模型进行训练，以得到第二模型，其中，该第二训练问答数据集是该n个训练子集中不同于该第一训练问答数据集的一个数据集，且该第二训练问答数据集的困惑度高于该第一训练问题数据集的困惑度；利用该验证集对该第二模型进行验证处理，以更新该崩塌概率值；重复上述操作，直至目标模型在该验证集上的崩塌概率值大于或者等于该阈值，输出该目标模型。

5、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该获取模块，用于获取x个问答数据以及该x个问答数据的困惑度，该x为大于该n的正整数；

6、根据该困惑度对该x个问答数据按照由易到难的顺序进行排序，以得到排序数据集；

7、按照x/y的规则依次将该排序数据集进行划分处理，以得到该n个训练问答数据集，该y用于指示该n个训练问答数据集中每个训练问答数据集的训练问答数据的数量，该y为正整数。

8、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该获取模块，用于获取初始问题示例集，该初始问题示例集包括m个初始问题示例；

9、按照预设规则对该m个初始问题示例进行修改，以得到该问题示例集，该预设规则包括增加问题示例的丰富度和降低问题示例集中的拒绝示例的至少一项。

10、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该获取模块，用于按照增加问题的信息类型、信息完整度、信息细节度以及信息时效性的规则对该m个初始问题示例进行修改，以得到该问题示例集；

11、或者，

12、降低该m个初始问题示例中的拒绝示例的数量，并按照增加问题的信息类型、信息完整度、信息细节度以及信息时效性的规则对目标拒绝示例进行修改，以得到该问题示例集；

13、或者，

14、按照增加问题的信息类型、信息完整度、信息细节信息以及信息时效性的规则对该m个初始问题示例进行修改，以得到中间问题示例集；

15、降低该中间问题示例集中的拒绝示例的数量，以得到该m问题示例集。

16、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，用于从该m个问题示例集中随机采样s个问题示例，以得到第一问题示例子集，该s为小于m的正整数；

17、从该n个训练问答数据集中按照由易到难的顺序选择该第一训练问答数据集；

18、按照由易到难的顺序从该第一训练问题数据集中选择第一训练问题数据子集；

19、调用该第一训练问题数据子集和该第一问题示例子集对该初始模型进行训练，以得到第一中间模型；

20、从该m个问题示例集中随机采样s个问题示例，以得到第二问题示例子集，并按照由易到难的顺序从该第一训练问题数据集中选择第二训练问题数据子集，该第二训练问题数据子集中各个训练问题数据的困惑度高于该第一训练问题数据子集中各个训练问题数据的困惑度；

21、利用该第二训练问题数据子集和该第二问题示例子集对该第一中间模型进行训练，以得到第二中间模型；

22、重复上述操作，直至该第一训练问题数据集处理完成，则输出该第一模型。

23、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，用于调用该初始模型基于该第一问题示例子集对该第一训练问题数据子集进行预测处理，以得到第一预测答复子集；

24、按照有用性、诚实性和无用性原则对该第一预测答复子集进行修改处理，以得到第二预测答复子集；

25、根据该第二预测答复子集对该初始模型的参数进行调整，以得到该第一中间模型。

26、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，用于根据该第二预测答复子集、该第一问题示例子集和该第一训练问题数据子集计算得到损失值；

27、根据该损失值调整该初始模型的参数，以得到该第一中间模型。

28、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，用于调用该第一模型对该验证集进行预测处理，以得到该验证集对应答复数据的终止符的输出概率，将该输出概率作为该崩塌概率值。

29、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该初始模型为预训练的大语言模型。

30、在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，该处理模块，用于在该崩塌概率值大于或者等于该阈值时，输出该第一模型为该目标模型。

31、本技术另一方面提供一种数据处理方法，包括：获取待处理数据；

32、调用目标模型对该待处理数据进行预测处理，以得到该待处理数据对应的答复数据，该目标模型是基于上述方法训练得到；

33、输出该答复数据。

34、本技术另一方面提供一种数据处理装置，包括：获取模块，用于获取待处理数据；

35、处理模块，用于调用目标模型对该待处理数据进行预测处理，以得到该待处理数据对应的答复数据，该目标模型是基于上述方法训练得到；

36、输出模块，用于输出该答复数据。

37、本技术另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

38、其中，存储器用于存储程序；

39、处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

40、总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

41、本技术的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

42、本技术的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

43、从以上技术方案可以看出，本技术实施例具有以下优点：利用不同的训练问答数据集对模型进行多轮自对齐训练，这样使得训练得到的目标模型的生成能力和分类能力随着轮次进行不断提高，同时各个训练问答数据集在整体上也具有由易至难的排序，这样在训练过程中，让模型不在早期就面对困难问题，从而减少模型的错误累积，进而提高模型的准确度。同时在自对齐过程中，利用验证集分析模型是否需要提前停止训练，从而防止的模型在后期崩塌。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取n个训练问答数据集包括：

3.根据权利要求1所述的方法，其特征在于，所述获取问题示例集包括：

4.根据权利要求3所述的方法，其特征在于，按照预设规则对所述m个初始问题示例进行修改，以得到所述问题示例集包括：

5.根据权利要求1所述的方法，其特征在于，所述利用第一训练问答数据集和所述问题示例集对所述初始模型进行训练，以得到第一模型包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述第一训练问题数据子集和所述第一问题示例子集对所述初始模型进行训练，以得到第一中间模型包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二预测答复子集对所述初始模型的参数进行调整，以得到所述第一中间模型包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，利用所述验证集对所述第一模型进行验证处理，以得到崩塌概率值包括：

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述初始模型为预训练的大语言模型。

10.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

11.一种数据处理方法，其特征在于，包括：

12.一种模型训练装置，其特征在于，包括：

13.一种数据处理装置，其特征在于，包括：

14.一种计算机设备，其特征在于，包括：存储器、处理器以及总线系统；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至11中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行如权利要求1至11中任一项所述的方法。

技术总结
本申请实施例提供了一种模型训练、数据处理方法、装置、设备、介质及程序产品，用于提高模型的准确性并实现模型在多轮自对齐的过程中不崩塌。可应用于人工智能领域。包括：获取N个训练问答数据集、问题示例集、验证集和初始模型；利用第一训练问答数据集和问题示例集对初始模型进行训练得到第一模型，第一训练问答数据集包含于N个训练问答数据集；利用验证集对第一模型进行验证处理得到崩塌概率值；在崩塌概率值小于阈值时，利用不同于第一训练问答数据集的第二训练问答数据集和问题示例集对第一模型进行训练得到第二模型；利用验证集对第二模型进行验证处理以更新崩塌概率值；重复上述操作直至崩塌概率值大于或者等于阈值，输出目标模型。

技术研发人员：王浩宇,赵沛霖
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-27818.html