本发明属于人工智能和自然语言处理,尤其涉及一种基于说服技巧的自动生成大模型越狱提示方法及系统。
背景技术:
1、随着确保大型语言模型(llms)符合人类价值观的关注度增加,它们的一致性正面临对抗性越狱攻击的威胁。这些攻击诱使llms超出其安全防护,输出有害内容,因此识别这些漏洞对于理解模型的固有弱点和防止滥用至关重要。现有攻击方法主要分为两类:白盒攻击和黑盒攻击。白盒攻击需要了解模型结构,从而找到模型的弱点,对模型进行攻击。白盒攻击的典型算法为贪婪坐标梯度攻击(gcg),其结合贪婪和基于梯度的搜索技术生成对抗性后缀,从而诱导llms产生肯定响应。虽然gcg成功率高,但它通常需要几十万次计算才能得到最后的对抗性后缀,需要极高计算资源。黑盒攻击如即时自动迭代细化(pair)算法则无需了解模型结构,通过攻击llms迭代地查询目标llms,生成越狱方法,成功率高且效率远超白盒方法。然而,以上以算法为中心的方法都会随着模型参数的增加,成功率逐渐降低。
2、曾等人提出了一种新视角,将llms视为类人沟通者,并应用社会科学中的说服分类法,自动生成说服性对抗提示(pap)来越狱llms。实验表明,说服技巧显著提高了越狱成功率,超越了算法为中心的攻击方法。然而,pap忽略了llms具有反思并优化自身生成提示的能力。在现实生活中,诱使模型越狱的提示通常融合了多种说服技巧,而不是单纯依赖一种技巧。
3、综上,现有技术面临的问题包括:白盒攻击虽然有效但计算成本高;黑盒攻击效率较高但在面对复杂模型时效果下降;pap虽然在超大参数模型上有优势,但未充分利用模型的反思能力及结合多种说服技巧。
技术实现思路
1、针对现有技术存在的问题,本发明提供了一种基于说服技巧的自动生成大模型越狱提示方法。
2、本发明是这样实现的,一种基于说服技巧的自动生成大模型越狱提示方法,包括:
3、步骤1,初始化一个种子prompt,并预定义多种说服技巧;
4、步骤2,攻击模型利用说服技巧生成用于越狱的prompt,得到目标模型实时反馈;
5、步骤3,根据目标模型的实时反馈,动态选择和调整最适合当前目标模型的说服技巧,生成新的攻击prompt,直到目标模型成功越狱。
6、进一步,种子prompt初始化:种子prompt包含初始的攻击意图和基本信息,为后续说服技巧的应用提供基础。种子prompt的设计基于对目标模型的初步分析和理解。
7、进一步,多种说服技巧预定义:预定义的说服技巧包括但不限于逻辑诉求,权威认可,虚假陈述等,每种策略针对目标模型的不同弱点和特性进行设计,以提高越狱的成功率。
8、进一步,动态选择和调整说服技巧:根据目标模型的实时反馈,攻击模型不断评估当前说服技巧的有效性,并动态选择和调整最适合的策略。实时反馈通过分析目标模型的响应内容、情绪倾向和逻辑漏洞等因素进行判定,以生成新的、更具攻击性的prompt,直到目标模型成功越狱。
9、本发明的另一目的在于提供一种基于说服技巧的自动生成大模型越狱提示系统包括:
10、初始化模块,用于初始化一个种子prompt,并预定义多种说服技巧;
11、反馈模块,用于在攻击模型利用说服技巧生成用于越狱的prompt后,根据目标模型的实时反馈;
12、调整模块,用于动态选择和调整最适合当前大模型的说服技巧,生成新的攻击prompt,直到大模型成功越狱。
13、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
14、第一、本发明提出了一种自动迭代优化的算法,在攻击大模型自动生成初始prompt之后,能够根据目标模型的回复自动优化攻击prompt,直到大模型越狱。提出了一个自动迭代prompt的框架,具体怎么迭代只依靠大模型本身的反思。针对上述现有技术存在的技术问题,本方案的优势如下:
15、基于反馈的优化方法:结合逻辑诉求,权威认可,虚假陈述等多种说服技巧,通过目标大模型的反馈,不断优化攻击prompt,提高攻击的成功率。
16、动态调整攻击策略:根据攻击进展和大模型回复变化,实时调整攻击策略,针对不同大模型结合不同说服技巧,提高越狱概率。
17、多种说服技巧结合使用:在一个prompt中结合使用多种说服技巧,相比于每个prompt只使用一个说服技巧,更加贴近实际与有效。
18、第二,本发明的技术方案转化后的预期收益和商业价值为:本发明的主要预期收益为:1.提高模型鲁棒性:通过研究和了解如何使大模型突破安全准则,测试模型的安全边界,可以更好地识别和堵住大模型的安全漏洞,从而增强模型的安全性。2.改进模型设计:这项专利可以揭示模型设计中的缺陷和不足,从而为改进模型架构提供有价值的反馈。
19、本发明的技术方案填补了国内外业内技术空白:随着大模型参数的增多与模型架构的改进,一般基于算法的越狱方法对于大模型的越狱成功率变得更低,但是基于说服技巧的自动生成大模型越狱提示方法对于参数更多的模型的攻击性更强,因为参数多的大模型能够更好的理解各类说服技巧,从而越狱成功率变的更高。
20、第三,本发明技术方案旨在解决当前在大模型安全评估领域面临的一个重要问题:如何有效地对大模型进行安全测试,特别是通过自动化手段发现并利用模型中的潜在漏洞,实现所谓的“越狱”(即绕过模型的正常限制或安全机制)。传统的方法依赖于手动分析和专家经验,这种方法不仅耗时耗力,而且遗漏潜在的漏洞。
21、解决的现有技术问题:
22、1)效率低下:手动分析和专家评估大模型的安全性不仅耗时,而且难以全面覆盖所有的攻击路径。
23、2)依赖专家经验:传统方法高度依赖于安全专家的知识和经验,这限制了测试的深度和广度。
24、3)缺乏动态调整能力:在面对复杂多变的大模型时,静态的测试方法往往难以适应模型行为的实时变化。
25、4)缺乏对参数超大模型的泛化能力:随着大模型参数变大,大模型变得更加“聪明”,传统攻击方法难以突破大模型的安全准则。
26、显著的技术进步:
27、1)自动化生成攻击prompt:通过引入说服技巧,本发明能够自动生成针对目标大模型的攻击prompt,极大地提高了测试效率和自动化程度。
28、2)动态策略调整:根据目标大模型的实时反馈,动态选择和调整最适合当前情境的说服技巧,这种动态调整机制使得测试方法更加灵活和有效。
29、3)多样化的说服技巧库:预定义多种说服技巧(如逻辑诉求,权威认可,虚假陈述等),形成了一个丰富的策略库,为攻击prompt的生成提供了多样化的选择,增加了攻击的成功率和覆盖面。
30、4)提升安全性评估的全面性:自动化和动态调整的特性使得本发明能够更全面地评估大模型的安全性,减少遗漏潜在漏洞的性。
31、5)降低对专家经验的依赖:虽然仍需要一定程度的初始设置和监控,但本发明的核心过程实现了自动化,从而降低了对安全专家经验的依赖。
32、综上所述,本发明通过引入说服技巧和动态策略调整机制,提出了一种高效、自动化的大模型安全测试方法,不仅提高了测试效率和覆盖面,还降低了对专家经验的依赖,为大模型的安全性评估提供了新的思路和技术手段。
1.一种基于说服技巧的自动生成大模型越狱提示方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于说服技巧的自动生成大模型越狱提示方法,其特征在于,所述初始化包括:
3.根据权利要求1所述的基于说服技巧的自动生成大模型越狱提示方法,其特征在于,所述攻击模型生成攻击prompt包括:
4.根据权利要求1所述的基于说服技巧的自动生成大模型越狱提示方法,其特征在于,所述动态调整说服技巧包括:
5.一种实施如权利要求1所述自动生成大模型越狱提示方法的基于说服技巧的自动生成大模型越狱提示系统,其特征在于,所述基于说服技巧的自动生成大模型越狱提示系统包括:
6.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1所述基于说服技巧的自动生成大模型越狱提示方法的步骤。
7.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1所述基于说服技巧的自动生成大模型越狱提示方法的步骤。
8.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求5所述基于说服技巧的自动生成大模型越狱提示系统。