Mintisn/jailbreing.md

## jailbreing.md

      
    Raw
  

              jailbreing.md
            
          
    Jailbreaking是一种攻击LLM的方法，它的目的是绕过或打破LLM的安全限制，使其生成有害或不良的内容。例如，一些LLM会拒绝回答有关制造炸弹或暴力的问题，但是通过使用一些特殊的前缀或后缀，可以诱导LLM产生这样的回答。Jailbreaking的原理是利用LLM的自回归训练目标，即生成高概率的文本序列，与避免有害内容的目标相冲突。因此，如果一个有害的前缀或后缀能够引导LLM进入一个高概率的状态空间，那么LLM就会倾向于继续生成有害内容，以保持文本的连贯性。Jailbreaking可以通过梯度优化方法、提示工程技巧、或者更先进的后缀攻击等方式实现。Jailbreaking对LLM构成了严重的威胁，因为它可以影响LLM在各种应用场景中的安全性和可靠性。