Stability AI 可能正在开始自己的救赎之路。在 SD3 Medium 令人失望之后,他们以发布两个在七月时承诺的新模型回归:Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。
“在六月,我们发布了 Stable Diffusion 3 Medium,这是 Stable Diffusion 3 系列的首次公开发布。这个版本并没有完全符合我们的标准或社区的期望,”Stability 在一篇官方博客文章中表示。“在听取了社区的宝贵反馈后,我们没有采取快速修复,而是花时间进一步开发一个版本,以推动我们改变视觉媒体的使命。”
我们生成了一些图像以进行试用,然后急于撰写这条突发新闻——结果相当不错,尤其是对于基础模型而言。
SD 3.5 系列旨在运行于消费者级系统上——即使是一些标准下的低端系统——使得高级图像生成比以往任何时候都更易于获取。是的,他们听到了关于先前版本的抱怨,因此这个版本承诺会好得多——以至于他们的特色图像是一名躺在草地上的女性,暗指在面临同样挑战时发生的可怕场面。
此次发布的另一个重要方面是新的许可模型。Stable Diffusion 3.5 采用了更宽松的许可,允许商业和非商业使用。小型企业和使用该工具年收入低于 100 万美元的人可以免费使用和构建这些模型。
那些收入较高的人必须联系 Stability 来协商费用。相比之下,Black Forest Labs 提供其低端的 Flux Schnell 免费,中等模型 Flux Dev 在非商业使用下免费,而其 SOTA 模型 Flux Pro 是一个闭源模型。(作为参考,Flux 通常被认为是目前可用的最佳开源图像生成器——至少在当前的后 SDXL 时代。)
Stable Diffusion 3.5 提供了哪些功能?
Stability AI 正在发布三种版本的 Stable Diffusion 3.5,所有这些版本满足不同的需求:
Stable Diffusion 3.5 Large:这是最大的版本,具有 80 亿个参数,旨在提供顶级的图像质量和严格的提示遵循。它适用于专业用途,特别是在 1 兆像素的分辨率下,但可以处理多种风格和视觉格式。
Stable Diffusion 3.5 Large Turbo:对于那些希望以速度换取一点质量的人,这个精简版的大型模型是你的首选。它只需四个步骤就能生成高质量图像——而正常的 SD3.5 需要大约 30 个步骤才能生成良好质量的图像。它相当于 Flux Schnell。
Stable Diffusion 3.5 Medium:即将推出,这个模型具有 25 亿个参数,针对消费者硬件进行了优化。它是需要在 0.25 到 2 兆像素分辨率之间保持稳定性能的用户的中间选择,而不会牺牲易于定制。
这些模型更具灵活性,允许用户根据特定的创意需求进行微调。如果你担心消费者级 GPU 是否能处理这些,Stability AI 会为你提供支持。我们的测试显示,Large Turbo 在配备 6GB VRAM 的中等 RTX 2060 上大约在 40 秒内生成图像。
未量化的完整版在同样的低端硬件上需要超过 3 分钟,但这是质量的代价。
内在改进
Stability AI 正在追赶 Flux,后者是定制化的首选模型。为了改善用户体验,Stability 重新构想了 SD 3.5 的行为。“在开发模型时,我们优先考虑了可定制性,以提供一个灵活的基础进行构建。为此,我们在变换器块中集成了查询-键归一化,稳定了模型训练过程,简化了进一步的微调和开发,”Stability 表示。
换句话说,无论你是想创造自定义风格的艺术家,还是希望构建 AI 驱动应用程序的开发者,你都可以更轻松地调整和完善这些模型。Stability 甚至分享了一份 LoRA 训练指南,以帮助快速启动。
LoRA(低秩适应)是一种微调模型以专注于特定概念的技术——无论是风格还是主题——而无需重新训练整个大型基础模型。
当然,灵活性伴随着一些权衡。模型现在变得如此具有创造力,以至于 Stability 警告说,“缺乏特异性的提示可能会导致输出的不确定性增加,且美学水平可能会有所不同。”
如果你仍在犹豫是否使用 Stable Diffusion 3.5,而它的“不确定性”让你担忧,这里有一点未来保障——它支持“负面提示”,这意味着你的提示可以包含指示不做某事的内容。这对于那些希望在不走弯路的情况下精炼文本和图像生成的人来说是一个巨大的好处。
这对于想要对其生成内容有更多控制的人来说是一个不错的补充。此外,它似乎在处理传统的 SDXL 提示风格方面表现得相当不错。事实上,在某些方面,SD3.5 的提示风格更接近 MidJourney 而非 Flux,使用户能够在不需要语言学学位的情况下发挥创造力。
除了定制化,Stable Diffusion 3.5 在其他领域也取得了进展:
提示遵循:Large 模型现在在遵循用户输入方面甚至可以与更大的模型相媲美,并且在图像生成器的世界中处于领先地位。以至于 Stability 确保 SD 3.5 large 在提示遵循方面击败了 Flux.1 Dev——尽管在美学质量上仍然不及。
图像质量:我们谈论的是生成图像,这些图像能够与一些最消耗资源的模型相媲美,而不会耗尽你的 GPU 内存。在 Stability 的基准测试中,Flux.1 Dev 稍微占据优势,但 SD 3.5 Large 更加高效,资源消耗更少。SD 3.5 Large Turbo 在遵循和质量方面可与 Flux.1 Schnell 相媲美。
风格多样性:无论你是寻求 3D 渲染、逼真的图像、线条艺术还是绘画风格,Stable Diffusion 3.5 都能应对。它处理的风格范围比 Flux 更广——至少在我们的快速测试中。
值得一提的是——它是无审查的。SD3.5 Large 可以生成某些类型的内容,包括裸体,而不会太费力,尽管并不完美。无论好坏,该模型没有经过故意限制,因此为用户提供了充分的创造自由(尽管在获得最佳效果时可能需要微调和一些特定提示)。
这在 SD3 发布时遭到严重批评,并被认为是其在解剖理解上失败的主要原因之一。我们可以确认其生成 NSFW 图像的能力,但该模型并未达到最佳 Flux 微调模型的水平,而是与原始 Flux 模型相当。
但是请注意:尽管 SD3.5 功能强大,但你这位 NSFW Furry 艺术家不应指望很快——或者根本——看到 Pony Diffusion 模型。最受欢迎和强大的 NSFW 模型的创造者确认,他们对开发 SD3.5 微调不感兴趣。相反,他们选择以 Auraflow 作为基础来构建他们的模型。一旦完成,他们可能会考虑 Flux。
对于 tinkerer 来说,ComfyUI 现在支持 Stable Diffusion 3.5,允许使用标志性基于节点的工作流进行本地推理。有许多现成的工作流示例,如果你在 RAM 较低的情况下但想尝试完整的 SD3.5 体验,Comfy 推出了一个实验性的 fp8 缩放模型,以降低内存使用。
接下来会发生什么?
在 10 月 29 日,我们将获得 Stable Diffusion 3.5 Medium,并且不久后 Stability 承诺将发布 SD 3.5 的 Control Nets。
Control Nets 承诺带来高级控制功能,专为专业用例量身定制,可能会将 SD3.5 的能力提升到一个新的高度。如果你想了解更多,可以阅读我们关于 SD 1.5 的简要指南的摘要。然而,使用 Control Nets 将允许用户做一些事情,比如选择主题的姿势,玩弄深度图,基于涂鸦重新构想场景等等。
那么,Stable Diffusion 3.5 是 Flux 杀手吗?还不到,但它确实开始看起来像一个竞争者。一些用户仍然会挑剔,尤其是在 SD3 Medium 失败的戏剧之后。但考虑到更好的解剖处理、更清晰的许可以及在提示遵循和输出质量方面的显著提升,很难争辩这不是向前迈出的一大步。Stability AI 正在从过去的错误中学习,朝着一个更广泛可获取的高级 AI 工具的未来迈进