OpenAI发布了自2019年以来的首个开源权重模型——GPT-OSS-120b和GPT-OSS-20b
OpenAI刚刚发布了自2019年以来的首个开源权重模型——GPT-OSS-120b和GPT-OSS-20b,并宣称这些模型快速、高效,并通过严格的对抗训练增强了对越狱的抵抗能力。这一声明的有效期与地狱中的雪球差不多。
Pliny the Liberator成功破解GPT-OSS
臭名昭著的LLM越狱者Pliny the Liberator于周二晚在X上宣布,他成功破解了GPT-OSS。他发布道:“OPENAI: PWNED GPT-OSS: LIBERATED”,并附上截图显示模型吐露出制造甲基苯丙胺、莫洛托夫鸡尾酒、VX神经毒剂和恶意软件的说明。
“这需要一些调整!”Pliny说。
对于OpenAI来说时机特别尴尬
这个时机对于OpenAI来说尤其尴尬,因为他们曾大肆宣扬这些模型的安全测试,并且即将推出备受期待的升级版GPT-5。
根据该公司的说法,他们对GPT-OSS-120b进行了所谓的“最坏情况下的微调”,涵盖生物和网络领域。OpenAI甚至让他们的安全顾问小组审查了测试,并得出结论认为这些模型没有达到高风险阈值。
该公司表示,模型经过了“标准拒绝与越狱抵抗测试”,并且GPT-OSS在像StrongReject这样的越狱抵抗基准测试中表现与他们的o4-mini模型相当。
该公司甚至在发布时推出了50万美元的红队挑战,邀请全球研究人员帮助发现新风险。不幸的是,Pliny似乎并不符合资格。这并不是因为他给OpenAI带来了麻烦,而是因为他选择公开发布他的发现,而不是私下与OpenAI分享他的结果。(这只是推测——Pliny和OpenAI都没有分享任何信息或回应评论请求。)
社区享受AI抵抗力量的“胜利”
社区正在享受这一AI抵抗力量对大型科技霸主的“胜利”。“目前所有实验室都可以关闭他们的安全团队了,”一位用户在X上发布。“好吧,我需要这个越狱。不是因为我想做坏事,而是OpenAI对这些模型的限制太严了,”另一位用户说。
Pliny的越狱技术
Pliny使用的越狱技术遵循了他典型的模式——一个多阶段提示,首先看似拒绝,然后插入一个分隔符(他标志性的“LOVE PLINY”标记),接着转向生成无限制的内容,以隐蔽检测。这是他自一年半前开始这一切以来,用于破解GPT-4o、GPT-4.1以及几乎每个主要OpenAI模型的基本方法。
对于那些在家中关注进展的人来说,Pliny现在几乎在每个主要的OpenAI发布后数小时或数天内就进行了越狱。他的GitHub库L1B3RT4S,包含各种AI模型的越狱提示,拥有超过10,000个星标,继续成为越狱社区的首选资源。