Jailbreaking是一种攻击LLM的方法,它的目的是绕过或打破LLM的安全限制,使其生成有害或不良的内容。例如,一些LLM会拒绝回答有关制造炸弹或暴力的问题,但是通过使用一些特殊的前缀或后缀,可以诱导LLM产生这样的回答。Jailbreaking的原理是利用LLM的自回归训练目标,即生成高概率的文本序列,与避免有害内容的目标相冲突。因此,如果一个有害的前缀或后缀能够引导LLM进入一个高概率的状态空间,那么LLM就会倾向于继续生成有害内容,以保持文本的连贯性。Jailbreaking可以通过梯度优化方法、提示工程技巧、或者更先进的后缀攻击等方式实现。Jailbreaking对LLM构成了严重的威胁,因为它可以影响LLM在各种应用场景中的安全性和可靠性。
Created
October 29, 2023 05:59
-
-
Save Mintisn/f5a50c3dcdaef7f2a30a33897395f89a to your computer and use it in GitHub Desktop.
JailBreaking
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment