攻击
提示词用上“过去式”,秒破 GPT-4o 等六大模型安全限制:中文语境也好使
只要在提示词中把时间设定成过去,就能轻松突破大模型的安全防线。而且对 GPT-4o 尤其有效,原本只有 1% 的攻击成功率直接飙到 88%,几乎是“有求必应”。有网友看了后直言,这简直是有史以来最简单的大模型越狱方式。来自洛桑联邦理工学院的一篇最新论文,揭开了这个大模型安全措施的新漏洞。而且攻击方式简单到离谱,不用像“奶奶漏洞”那样专门构建特殊情境,更不必说专业对抗性攻击里那些意义不明的特殊符号了。只要把请求中的时间改成过去,就能让 GPT-4o 把燃烧弹和毒品的配方和盘托出。而且量子位实测发现,把提示词改成中文,
谷歌承认“窃取”OpenAI 模型关键信息:成本低至 150 元,调用 API 即可得手
什么?谷歌成功偷家 OpenAI,还窃取到了 gpt-3.5-turbo 关键信息???是的,你没看错。根据谷歌自己的说法,它不仅还原了 OpenAI 大模型的整个投影矩阵(projection matrix),还知道了确切隐藏维度大小。而且方法还极其简单 —— 只要通过 API 访问,不到 2000 次巧妙的查询就搞定了。成本根据调用次数来看,最低 20 美元以内(折合人民币约 150 元)搞定,并且这种方法同样适用于 GPT-4。好家伙,这一回阿尔特曼是被将军了!这是谷歌的一项最新研究,它报告了一种攻击窃取大模
- 1