本申请属于人工智能,具体而言涉及一种优化大语言模型指令遵循能力的方法、设备及介质。
背景技术:
1、近年来,大规模语言模型(llm)取得了令人瞩目的发展,在越来越多的任务上表现出了强大的能力。随着llm被应用在越来越多的现实场景,其指令遵循能力变得至关重要,特别是遵循多约束复杂指令的能力。无法准确地遵循用户指令甚至会在实际应用场景中带来重大安全隐患。
2、在指令遵循任务中,一个突出特点是细微的差异会决定该任务的成功,因此偏好优化是一种常用的提升指令遵循能力的方法。然而,现有的方法在构造偏好数据时,通常直接从模型中采样多个独立的回复。这种方法可能引入与指令遵循无关的内容,无法避免地会引入干扰因素。由于这些干扰因素与指令遵循任务的成功无关,从而会影响模型学习到真正决定指令遵循成功的关键差异。
技术实现思路
1、鉴于上述的分析,本发明实施例旨在提供一种优化大语言模型指令遵循能力的方法、设备及介质,旨在生成有效的偏好数据,排除干扰因素。
2、本申请的第一方面,提供了一种优化大语言模型指令遵循能力的方法,包括:
3、采用自我博弈训练框架,通过大语言模型扮演生成者模型和完善者模型来进行自我博弈;
4、其中,在每一轮自我博弈训练过程中执行以下步骤:
5、生成者模型对给出的指令数据生成回复;
6、完善者模型对每个回复进行评判打分,找到执行失败的回复;
7、利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复;
8、基于所述修正后的回复和所述执行失败的回复,构建出生成者训练数据,以对生成者模型进行迭代优化;基于所述执行失败的回复和树搜索的自我完善策略中的数据,构建出完善者训练数据,以对完善者模型进行迭代优化。
9、可选地,所述利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复包括:
10、将执行失败的指令数据作为搜索的根结点,从所述根结点出发扩展树节点,每一个扩展的子节点对应一个可能的修正结果;
11、对每个修正结果判断其正确性,并进行评判;直到完善者模型修正出正确的回复为止,搜索流程结束;
12、将修正出正确的回复作为修正后的回复。
13、可选地,所述利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复包括:
14、采用深度优先搜索的树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复,执行方式如下:
15、从根节点开始,向下探索未访问的子节点,进入新的节点后,继续向下探索直到最大探索深度;
16、当到达一个节点,且达到最大搜索深度时,回溯到上一个节点,继续探索其他子节点;
17、直到完善者模型修正出正确的回复为止,搜索流程结束。
18、可选地,所述利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复包括:
19、采用宽度优先搜索的树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复,执行方式如下:
20、从根节点开始,创建一个队列来存储每一层的节点;
21、将根节点入队,然后开始循环:节点出队,访问对应节点的所有未访问的直接子节点,将子节点入队;
22、循环执行,直到完善者模型修正出正确的回复为止,搜索流程结束。
23、可选地,所述利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复包括:
24、在树搜索过程中,每个节点的输出经过自我完善机制的检查和修正;自我完善机制分析输出中的错误,并提出修正后的回复;
25、对于每个修正后的回复,重新评估其质量和准确性,并将评估结果反馈到树搜索中,用新的评估结果修正回复。
26、可选地,所述基于所述修正后的回复和所述执行失败的回复,构建出生成者训练数据,以对生成者模型进行迭代优化包括:
27、将所述修正后的回复和所述执行失败的回复进行配对,形成生成训练用数据对;
28、定义损失函数,所述损失函数直接反映出模型对偏好的学习程度;
29、采用所述生成训练用数据对以及所述损失函数,通过偏好学习训练生成者模型;
30、在每一轮训练后,使用验证集来评估模型的表现,根据评估结果调整模型参数或训练策略,优化后的生成者模型用于下一轮。
31、可选地,所述基于所述执行失败的回复和树搜索的自我完善策略中的数据,构建出完善者训练数据,以对完善者模型进行迭代优化包括:
32、从树搜索策略中收集数据,包括执行失败的回复和在搜索过程中生成的所有潜在修正;将所有潜在修正区分为有效的修正和无效的修正;
33、将执行失败的回复与有效的修正进行配对,形成完善训练数据对;
34、生成修正候选;对于每个生成的修正候选,计算被接受的概率;在所述修正候选符合设定标准时,才接受为训练数据;
35、使用接受的训练数据对完善者模型进行训练;
36、在每轮训练后,对模型的性能进行评估,并根据需要调整模型参数或训练策略,优化后的完善者模型用于下一轮。
37、可选地,所述指令遵循能力包括客观约束和主观约束;所述主观约束包括情感因素、场景适应性因素、语境相关性因素。
38、本申请的第二方面,提供了一种优化大语言模型指令遵循能力的设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现根据上述任一种所述的优化大语言模型指令遵循能力的方法。
39、本申请的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任一种所述的优化大语言模型指令遵循能力的方法。
40、本申请所提供的优化大语言模型指令遵循能力的方法,采用自我博弈训练框架,通过大语言模型扮演生成者模型和完善者模型来进行自我博弈; 其中,在每一轮自我博弈训练过程中,生成者模型对给出的指令数据生成回复;完善者模型对每个回复进行评判打分,找到执行失败的回复;利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复;基于所述修正后的回复和所述执行失败的回复,构建出生成者训练数据,以对生成者模型进行迭代优化;基于所述执行失败的回复和树搜索的自我完善策略中的数据,构建出完善者训练数据,以对完善者模型进行迭代优化。本申请采用的自我博弈框架利用树搜索和自我完善生成有效的偏好数据,能够排除干扰因素,大大超过独立采样所构造偏好数据的效果,优化了大规模语言模型的指令遵循能力。
41、此外,本申请还提供了具有上述技术效果的优化大语言模型指令遵循能力的设备及介质。
1.一种优化大语言模型指令遵循能力的方法,其特征在于,包括:
2.根据权利要求1所述的优化大语言模型指令遵循能力的方法,其特征在于,所述利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复包括:
3.根据权利要求2所述的优化大语言模型指令遵循能力的方法,其特征在于,所述利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复包括:
4.根据权利要求2所述的优化大语言模型指令遵循能力的方法,其特征在于,所述利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复包括:
5.根据权利要求1至4任一项所述的优化大语言模型指令遵循能力的方法,其特征在于,所述利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复包括:
6.根据权利要求5所述的优化大语言模型指令遵循能力的方法,其特征在于,所述基于所述修正后的回复和所述执行失败的回复,构建出生成者训练数据,以对生成者模型进行迭代优化包括:
7.根据权利要求5所述的优化大语言模型指令遵循能力的方法,其特征在于,所述基于所述执行失败的回复和树搜索的自我完善策略中的数据,构建出完善者训练数据,以对完善者模型进行迭代优化包括:
8.根据权利要求1所述的优化大语言模型指令遵循能力的方法,其特征在于,所述指令遵循能力包括客观约束和主观约束;所述主观约束包括情感因素、场景适应性因素、语境相关性因素。
9.一种优化大语言模型指令遵循能力的设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现根据权利要求1-8任一项所述的优化大语言模型指令遵循能力的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-8任一项所述的优化大语言模型指令遵循能力的方法。