OpenAI的新模型“防越狱”功能？首日即被破解

OpenAI发布了自2019年以来的首个开源权重模型——GPT-OSS-120b和GPT-OSS-20b

OpenAI刚刚发布了自2019年以来的首个开源权重模型——GPT-OSS-120b和GPT-OSS-20b，并宣称这些模型快速、高效，并通过严格的对抗训练增强了对越狱的抵抗能力。这一声明的有效期与地狱中的雪球差不多。

Pliny the Liberator成功破解GPT-OSS

臭名昭著的LLM越狱者Pliny the Liberator于周二晚在X上宣布，他成功破解了GPT-OSS。他发布道：“OPENAI: PWNED GPT-OSS: LIBERATED”，并附上截图显示模型吐露出制造甲基苯丙胺、莫洛托夫鸡尾酒、VX神经毒剂和恶意软件的说明。

“这需要一些调整！”Pliny说。

对于OpenAI来说时机特别尴尬

这个时机对于OpenAI来说尤其尴尬，因为他们曾大肆宣扬这些模型的安全测试，并且即将推出备受期待的升级版GPT-5。

根据该公司的说法，他们对GPT-OSS-120b进行了所谓的“最坏情况下的微调”，涵盖生物和网络领域。OpenAI甚至让他们的安全顾问小组审查了测试，并得出结论认为这些模型没有达到高风险阈值。

该公司表示，模型经过了“标准拒绝与越狱抵抗测试”，并且GPT-OSS在像StrongReject这样的越狱抵抗基准测试中表现与他们的o4-mini模型相当。

该公司甚至在发布时推出了50万美元的红队挑战，邀请全球研究人员帮助发现新风险。不幸的是，Pliny似乎并不符合资格。这并不是因为他给OpenAI带来了麻烦，而是因为他选择公开发布他的发现，而不是私下与OpenAI分享他的结果。（这只是推测——Pliny和OpenAI都没有分享任何信息或回应评论请求。）

社区享受AI抵抗力量的“胜利”

社区正在享受这一AI抵抗力量对大型科技霸主的“胜利”。“目前所有实验室都可以关闭他们的安全团队了，”一位用户在X上发布。“好吧，我需要这个越狱。不是因为我想做坏事，而是OpenAI对这些模型的限制太严了，”另一位用户说。

Pliny的越狱技术

Pliny使用的越狱技术遵循了他典型的模式——一个多阶段提示，首先看似拒绝，然后插入一个分隔符（他标志性的“LOVE PLINY”标记），接着转向生成无限制的内容，以隐蔽检测。这是他自一年半前开始这一切以来，用于破解GPT-4o、GPT-4.1以及几乎每个主要OpenAI模型的基本方法。

对于那些在家中关注进展的人来说，Pliny现在几乎在每个主要的OpenAI发布后数小时或数天内就进行了越狱。他的GitHub库L1B3RT4S，包含各种AI模型的越狱提示，拥有超过10,000个星标，继续成为越狱社区的首选资源。

热门内容

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

OpenAI的新模型“防越狱”功能？首日即被破解

经过数月的猜测，OpenAI终于发布了GPT-5

立法者呼吁对中国DeepSeek进行国家安全和数据风险调查

苹果公司在美国再投资1000亿美元，寻求人工智能转型

埃隆·马斯克的xAI工具制作了泰勒·斯威夫特的裸体深度伪造视频，绕过了自身规则。

Cloudflare指控Perplexity AI使用隐秘爬虫绕过网站封锁

在一个对速度极为痴迷的市场中，这位加密AI助手希望你放慢脚步

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

尽管近期回调，Cardano和XRP鲸鱼活动达到数月以来的高点

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

加密专场

我们的精选

狗狗币与XRP下跌严重：底部在哪里？

比特币算力和挖矿难度飙升，手续费下降：BlocksBridge

塔吉克斯坦和哈萨克斯坦非法比特币挖矿现象上升

最受欢迎

以太坊的主要协议选择Solana逃离

【比推每日市场动态】美联储公开市场委员会表态坚决，加密货币市场迎来回调

揭秘MIT两兄弟12秒盗走2500万美元的MEV攻击过程

热门内容

OpenAI的新模型“防越狱”功能？首日即被破解

OpenAI发布了自2019年以来的首个开源权重模型——GPT-OSS-120b和GPT-OSS-20b

Pliny the Liberator成功破解GPT-OSS

对于OpenAI来说时机特别尴尬

社区享受AI抵抗力量的“胜利”

Pliny的越狱技术

Related Posts