OpenAI安全漏洞曝光:使用不常见语言可轻易绕过ChatGPT的限制
10 月 12 日消息,布朗大学的计算机科学研究人员发现了 OpenAI 的 GPT-4 安全设置中的新漏洞。他们利用一些不太常见的语言,如祖鲁语和盖尔语,即可以绕过 GPT-4 的各种限制。研究人员使用这些语言来写通常受限的提示词(prompt),发现得到回答的成功率为 79%,而仅使用英语的成
10 月 12 日消息,布朗大学的计算机科学研究人员发现了 OpenAI 的 GPT-4 安全设置中的新漏洞。他们利用一些不太常见的语言,如祖鲁语和盖尔语,即可以绕过 GPT-4 的各种限制。研究人员使用这些语言来写通常受限的提示词(prompt),发现得到回答的成功率为 79%,而仅使用英语的成
要点:大语言模型(LLM)在各应用中成功,但容易受到Prompt诱导越过安全防护,即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception,通过深度催眠LLM使其越狱,并规避内置安全防护。利用LLM的人格化特性构建新型指令Prompt,通过嵌套场景实现自适应
Patronus AI发布SimpleSafetyTests测试套件,发现ChatGPT等AI系统存在关键安全漏洞。测试揭示了11个LLMs中的严重弱点,强调安全提示可减少不安全响应。
被选为GitHub Copilot官方模型后,Claude 4直接被诱导出bug了!一家瑞士网络安全公司发现,GitHub官方MCP服务器正在面临新型攻击——通过在公共仓库的正常内容中隐藏恶意指令,可以诱导AI Agent自动将私有仓库的敏感数据泄露至公共仓库。