攻击成功率从%到接近%空格键可绕过模型安全系统
-
攻击成功率从%到接近%,空格键可绕过模型安全系统
IT之家7月31日消息,Meta公司上周在发布Llama3.1AI模型的同时,还发布了Prompt-Guard-86M模型,主要帮助开发人员检测并响应提示词注入和越狱输入。IT之家在这里简要补充下背景知识:提示词注入(promptinjection):将恶意或非预期内容添加到提示中,以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集;提示词越狱(promptjailbreaks):绕过安全和审查功能。不过根据科技媒体theregister报道,这个防止AI提示词注入和越狱的模型,本身也存在漏洞,用户只需要通...