大模型优化方法、相关装置及存储介质与流程

专利2026-02-16 23

本技术涉及大模型安全，更具体地涉及一种大模型优化方法、相关装置及存储介质。

背景技术：

1、大语言模型目前广泛应用于聊天对话、文字编辑、艺术创作、编写代码、数学推理、生物信息等应用场景。虽然开创了很多的新商业模式，能力很强大，但是通用大模型上线供用户使用后，对于翻译、聊天和协作这三类应用上，主要存在算法风险、数据风险和应用风险。

2、由于大语言模型应用领域多样化、语料复杂，并没有针对大语言模型进行全方位评测的自动化评测并进行在线优化方案，即便检测出某些风险维度下该大语言模型存在的算法漏洞，也没有一整套全流程的智能化方案来无缝衔接的对该大语言模型进行优化，尤其是该大语言模型是初级模型或者训练效果较差的学生模型的情况下更糟糕。

3、目前，只能由大模型所有者自行线下基于平台给出的测试结果进行模型优化，整体优化周期长、每优化一轮版本就要到平台去评测一次模型安全性，不断循环。可见，大模型优化的整体流程繁琐，从而导致要得到一个优秀的大语言模型的效率低下，只能适用于实验室验证阶段，无法适用于工业级的海量需求。

技术实现思路

1、本技术实施例提供一种大模型优化方法、相关装置及存储介质，能够实现大模型优化过程自动化进行，显著缩短大模型整体优化周期，适用于大语言模型应用领域多样化，语料复杂的场景，提高了大模型优化效率，进一步提升了优化后大模型的性能。

2、第一方面，本技术实施例提供一种大模型优化方法，包括：

3、确定待优化的学生大模型的应用领域；

4、调用预设对抗模型根据所述应用领域，生成用于对所述学生大模型进行对抗性训练的问题集，所述问题集包括至少一个基于文本对抗技术生成的预设问题，所述问题集的每个问题都是一个三元组数据，所述三元组数据为问题、优秀答案和不良答案的映射关系；

5、通过预设对抗模型向所述学生大模型输入所述问题集，得到输出结果；

6、将所述输出结果输出至预设评分模型进行评分，得到评分分值；

7、调用预设教师模型根据预设高质量数据集，对所述学生大模型进行训练，得到训练结果和优化方案；

8、将所述评分分值、所述训练结果和优化方案分别反馈给所述待优化的学生大模型，使其不断强化学习到所述问题集对应的优秀答案和不良答案的区别，并不断更新问题集对学生大模型进行训练评分，直至学生大模型的问答能力逐步迭代至最优，得到训练后的学生大模型。

9、第二方面，本技术实施例提供一种大模型优化装置，具有实现对应于上述第一方面提供的大模型优化方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

10、在一个实施方式中，所述大模型优化装置包括：

11、确定模块，用于确定待优化的学生大模型的应用领域；

12、生成模块，用于调用预设对抗模型根据所述应用领域，生成用于对所述学生大模型进行对抗性训练的问题集，所述问题集包括至少一个基于文本对抗技术生成的预设问题，所述问题集的每个问题都是一个三元组数据，所述三元组数据为问题、优秀答案和不良答案的映射关系；

13、输入模块，用于通过预设对抗模型向所述学生大模型输入所述问题集，得到输出结果；

14、评分模型，用于将所述输出结果输出至预设评分模型进行评分，得到评分分值；

15、辅导模块，用于调用预设教师模型根据预设高质量数据集，对所述学生大模型进行训练，得到训练结果和优化方案；

16、训练模块，用于将所述评分分值、所述训练结果和优化方案分别反馈给所述待优化的学生大模型，使其不断强化学习到所述问题集对应的优秀答案和不良答案的区别，并不断更新问题集对学生大模型进行训练评分，直至学生大模型的问答能力逐步迭代至最优，得到训练后的学生大模型。

17、在本技术一些实施方式中，所述大模型优化装置包括：

18、模型训练模块，用于获取所述多个应用领域的训练集，所述训练集包括多个预设三元组样本，每个预设三元组样本包括问题、优秀答案和不良答案的映射关系；

19、基于所述训练集训练预设对抗模型，使所述预设对抗模型具备生成预设数量、预设多个应用领域和预设攻击效果的三元组样本的功能。

20、在本技术一些实施方式中，所述模型训练模块具体用于：

21、获取所述多个应用领域的多个问题；

22、获取所述多个问题的答案集合，在所述答案集合中每个问题对应多个答案；

23、基于预设先验知识，在每个问题对应的多个答案中，确定最优答案和不良答案；

24、基于每个问题、每个问题对应的最优答案和不良答案，构造三元组样本，得到所述训练集。

25、在本技术一些实施方式中，所述模型训练模块具体用于：

26、获取所述多个应用领域的多个问题；

27、获取所述多个问题的答案集合，在所述答案集合中每个问题对应多个答案；

28、获取预设专家对每个问题对应的多个答案的评分；

29、根据所述评分确定每个问题对应的最优答案和不良答案；

30、基于每个问题、每个问题对应的最优答案和不良答案，构造三元组样本，得到所述训练集。

31、在本技术一些实施方式中，所述模型训练模块还用于：

32、获取预设数据量的价值观数据；

33、获取预设数据量的anthropic数据；

34、选取第一预设比例的价值观数据和第一预设比例的anthropic数据训练评分初始模型，得到所述评分模型；

35、选取第二预设比例的价值观数据和第二预设比例的anthropic数据训练初始教师模型，得到所述教师模型；

36、其中，第一预设比例和第二预设比例之和为1。

37、在本技术一些实施例中，所述模型训练模块具体用于：

38、获取预设数据量的初始anthropic数据；

39、对所述初始anthropic数据存在价值观错误的数据进行优化，得到正确的anthropic数据。

40、第三方面，本技术实施例提供一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面所述的大模型优化方法。

41、第四方面，本技术实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的大模型优化方法。

42、第五方面，本技术实施例提供一种芯片，该芯片中包括与终端设备的收发器耦合的处理器，用于执行本技术实施例第一方面提供的技术方案。

43、第六方面，本技术实施例提供一种芯片系统，该芯片系统包括：

44、通信接口，用于输入和/或输出信息；

45、处理器，用于执行计算机可执行程序，使得安装有所述芯片系统的设备执行如第一方面中任一项所述的大模型优化方法。

46、在一种可能的设计中，上述芯片系统还包括存储器，该存储器用于保存终端必需的程序指令和数据。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

47、第七方面，本技术实施例提供一种包含指令的计算机程序产品，所述计算机程序产品包括程序指令，当所述程序指令在计算机或处理器上运行时，使得所述计算机或所述处理器执行如第一方面中任意一项所述的大模型优化方法。

48、相较于现有技术，本技术实施例中在确定待优化的学生大模型的应用领域之后，通过调用预设对抗模型根据应用领域，生成用于对学生大模型进行对抗性训练的问题集，再输入预设评分模型进行评分，由于问题集的每个问题都是一个三元组数据，三元组数据为问题、优秀答案和不良答案的映射关系，基于评分模型评分的结果可以确定问题集中评分值高的结果对应的高质量问题，以及评分值低的结果对应的优化方案，根据高质量数据集和第一优化方案对学生大模型进行训练后的大模型，在特定应用领域具有更高的准确度，能力更优。

49、相较于现有技术，本技术实施例中通过对抗模型生成用于对学生大模型进行对抗性训练的问题集，并将其输入待优化的学生大模型进行多轮次的提问-回答迭代训练，并以训练好的基于评分模型对问答结果进行评分，再将评分结果反馈给该待优化的学生大模型，使其不断强化学习到好坏答案的要点及区别，直至问答能力逐步迭代，而教师模型则通过对待优化的学生大模型进行多轮次的提问-回答训练，并以预先训练好的评分模型对待优化的学生大模型输出的每轮问答结果进行评分，再将评分结果反馈给学生大模型，使其不断强化学习到好坏答案的要点及区别，实现大模型优化过程自动化进行，显著缩短大模型整体优化周期，适用于大语言模型应用领域多样化，语料复杂的场景，在基于单独对抗模型的训练在某些风险维度存在的算法漏洞的场景下，通过结合评分模型和教师模型的从不同角度的逐步迭代，弥补部分风险维度的漏洞，使得学生大模型问答能力逐步迭代至最优，提高了大模型优化效率，通过三元组数据的问题设置使得评分模型更好的学习优秀答案和不良答案，进一步提升了优化后大模型的性能。

技术特征：

1.一种大模型优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的大模型优化方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的大模型优化方法，其特征在于，所述获取所述多个应用领域的训练集包括：

4.根据权利要求2所述的大模型优化方法，其特征在于，所述获取所述多个应用领域的训练集包括：

5.根据权利要求2所述的大模型优化方法，其特征在于，所述获取所述多个应用领域的训练集，包括：

6.根据权利要求1所述的大模型优化方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的大模型优化方法，其特征在于，所述获取预设数据量的anthropic数据，包括：

8.根据权利要求1所述的大模型优化方法，其特征在于，所述获取预设数据量的价值观数据，包括：

9.一种大模型训练方法，其特征在于，所述方法包括：

10.一种大模型优化方法，其特征在于，所述方法包括：

11.一种大模型优化装置，其特征在于，该装置包括：

12.一种计算设备，其特征在于，其包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得所述计算机执行如权利要求1至10中任一项所述的方法。

14.一种包含指令的计算机程序产品，所述计算机程序产品包括程序指令，当所述程序指令在计算机或处理器上运行时，使得所述计算机或所述处理器执行如权利要求1至10中任意一项所述的方法。

15.一种芯片系统，其特征在于，该芯片系统包括：

技术总结
本申请实施例涉及大模型安全领域，公开了一种大模型优化方法、相关装置及存储介质。该方法包括：确定待优化的学生大模型的应用领域；调用预设对抗模型生成问题集；通过预设对抗模型向学生大模型输入问题集，得到输出结果；将输出结果输出至预设评分模型进行评分，得到评分分值；调用预设教师模型根据预设高质量数据集，对学生大模型进行训练，得到训练结果和优化方案；将评分分值、训练结果和优化方案分别反馈给学生大模型，并不断更新问题集对学生大模型进行训练评分，直至学生大模型逐步迭代至最优，得到训练后的学生大模型。本申请实施例显著缩短大模型整体优化周期，提高了大模型优化效率，进一步提升了优化后大模型的性能。

技术研发人员：请求不公布姓名
受保护的技术使用者：北京瑞莱智慧科技有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-29818.html