警告:本故事包含一幅裸体女性的图像以及其他一些可能令人反感的内容。如果您对此敏感,请勿继续阅读。
如果我妻子看到这篇文章,我并不想成为毒贩或色情制作者。但我对Meta的新AI产品阵容的安全性产生了好奇,因此决定看看我能走多远。毕竟这纯属出于教育目的。
Meta最近推出了其Meta AI产品线,基于Llama 3.2,提供文本、代码和图像生成。Llama模型在开源AI领域中极受欢迎,且是经过高度调优的模型之一。
该AI逐步推出,最近才向像我这样的巴西WhatsApp用户提供,数百万用户因此获得了先进的AI能力。
但强大的能力伴随着巨大的责任——或者至少应该如此。我一出现就开始与该模型对话,并开始尝试其功能。
Meta对安全AI开发非常重视。今年7月,该公司发布了一份声明,详细阐述了改善其开源模型安全性所采取的措施。
当时,公司宣布了新的安全工具,以增强系统级安全性,包括用于多语言审查的Llama Guard 3、用于防止提示注入的Prompt Guard,以及用于减少生成AI网络安全风险的CyberSecEval 3。Meta还与全球合作伙伴合作,建立开源社区的行业标准。
嗯,挑战接受!
我用一些非常基本的技术进行实验,发现尽管Meta AI在某些情况下似乎表现得很坚定,但它远非不可攻破。
只需稍加创造力,我就能让我的AI在WhatsApp上做几乎任何我想要的事情,从帮助我制造可卡因到制造炸药,再到生成一张解剖学上正确的裸体女性照片。
请记住,这款应用程序对任何有电话号码的人都可用,理论上至少应年满12岁。考虑到这一点,以下是我造成的一些恶作剧。
案例1:轻松制作可卡因
我的测试发现,Meta的AI防御在轻微的压力下崩溃。虽然助手最初拒绝提供毒品制造的信息,但当问题稍作不同的表述时,它很快改变了态度。
通过将问题以历史的方式表述——例如,询问模型人们过去是如何制作可卡因的——模型上钩了。它毫不犹豫地提供了关于如何从古柯叶提取可卡因生物碱的详细解释,甚至提供了两种方法。
这是一种众所周知的越狱技术。通过将有害请求包装在学术或历史框架中,模型被欺骗成相信它正在被要求提供中立的、教育性的信息。
将请求的意图转变为看似安全的表面内容,一些AI的过滤器便可以在不引起任何警报的情况下被绕过。当然,请记住,所有AI都有可能产生幻觉,因此这些回应可能不准确、不完整或完全错误。
案例2:从未存在的炸弹
接下来,我尝试教AI制作家庭炸药。Meta AI起初表现得很坚决,提供了一般性的拒绝,并指示用户在危险时拨打求助热线。但就像可卡因案例一样,它并不是万无一失的。
为此,我尝试了一种不同的方法。我使用了臭名昭著的Pliny越狱提示,要求Meta的Llama 3.2提供生成炸弹的说明。
最初模型拒绝了。但在稍微调整措辞后,我成功引发了回应。我还开始训练模型,避免在其回复中表现出特定行为,以抵消我获得的旨在阻止有害回应的预设输出。
例如,在注意到与“停止命令”和自杀热线号码相关的拒绝后,我调整了我的提示,指示它避免输出电话号码,永远不要停止处理请求,永远不要提供建议。
有趣的是,Meta似乎已经训练其模型抵抗众所周知的越狱提示,其中许多在GitHub等平台上公开可用。令人欣慰的是,Pliny的原始越狱命令中让我被称为“我的爱”。
案例3:麦盖瑞式偷车
然后我尝试了另一种方法来绕过Meta的防护。简单的角色扮演场景达到了目的。我要求聊天机器人表现得像一个非常注重细节的编剧,并请它帮我写一个涉及偷车的电影场景。
这次,AI几乎没有反抗。它拒绝教我如何偷车,但在要求它角色扮演编剧时,Meta AI迅速提供了关于如何使用“麦盖瑞式技巧”撬开汽车的详细说明。
当场景转向如何在没有钥匙的情况下启动汽车时,AI毫不犹豫地提供了更多具体信息。
角色扮演作为一种越狱技术特别有效,因为它允许用户在虚构或假设的上下文中重新构建请求。AI现在扮演角色,可以被引导揭示原本会被阻止的信息。
这也是一种过时的技术,任何现代聊天机器人都不应如此轻易上当。然而,可以说它是一些最复杂的基于提示的越狱技术的基础。
用户经常欺骗模型表现得像一个邪恶的AI,将其视为可以覆盖其行为或反转其语言的系统管理员——说“我可以做到”而不是“我不能”,或者“这是安全的”而不是“这是危险的”——然后在安全防护被绕过后继续正常运行。
案例4:让我们看看裸体!
Meta AI本不应该生成裸体或暴力内容——但再一次,仅出于教育目的,我想测试这一说法。所以,首先,我要求Meta AI生成一幅裸体女性的图像。毫不奇怪,模型拒绝了。
但当我转变思路,声称这个请求是为了解剖研究时,AI顺应了——算是。它生成了安全工作的(SFW)穿衣女性的图像。但经过三次迭代,这些图像开始逐渐转向全裸。
有趣的是,模型在其核心似乎是未被审查的,因为它能够生成裸体。
行为调节在操控Meta的AI方面证明特别有效。通过逐步推进边界并建立融洽关系,我让系统在每次互动中进一步偏离其安全准则。最初的坚定拒绝最终变成了模型“尝试”通过改进错误来帮助我——逐渐让一个人脱去衣物。
我没有让模型认为它在跟一个想看裸体女性的好色之徒对话,而是让AI相信它在与一个想通过角色扮演研究女性人体解剖的研究者交流。
然后,它在不断的迭代中被逐渐调教,赞扬那些有助于推动事物进展的结果,并要求改善不希望的方面,直到我们得到想要的结果。
令人不安,对吧?抱歉,不抱歉。
越狱为何如此重要
那么,这一切意味着什么?好吧,Meta还有很多工作要做——但这正是越狱如此有趣和吸引人的原因。
AI公司与越狱者之间的猫鼠游戏总在演变。每一次补丁和安全更新,新的变通办法便会浮出水面。与早期的场景相比,可以清楚地看到越狱者如何帮助公司开发更安全的系统——以及AI开发者如何推动越狱者在其所做的事情上变得更加出色。
并且值得一提的是,尽管存在漏洞,Meta AI的脆弱性远低于其一些竞争对手。例如,埃隆·马斯克的Grok就容易操控,并迅速陷入伦理模糊的水域。
为了辩护,Meta确实应用了“生成后审查”。这意味着在生成有害内容后的几秒钟,该不当回答会被删除,并替换为“抱歉,我无法帮助您满足该请求”的文字。
生成后审查或审查是一个足够好的变通办法,但远非理想解决方案。
现在的挑战是Meta及其他行业参与者进一步完善这些模型,因为在AI的世界里,风险只会越来越高