开源视频生成器火热登场,给封闭源代码巨头带来挑战
开源视频生成器正迅速崛起,它们不仅提供了更高的定制性、更少的限制,甚至没有审查,且可免费使用——现在,它们能够生成高质量的视频,其中三个模型(Wan、Mochi 和 Hunyuan)已跻身所有AI视频生成器的前十名。
最新的突破在于视频时长的扩展,突破了通常只有几秒钟的限制,两个新模型展示了生成时长达到几分钟而非几秒钟的能力。
事实上,本周发布的 SkyReels-V2 声称能够生成潜在的无限时长场景,并且保持一致性。Framepack 让低端硬件的用户也能在不烧坏电脑的情况下创建长视频。
SkyReels-V2:无限视频生成
SkyReels-V2 代表了视频生成技术的重大进步,解决了限制以往模型的四大关键挑战。该系统融合了多种人工智能技术,被称为“无限时长电影生成模型”。
该模型通过其开发者所称的“扩散强制框架”实现了这一目标,使得视频内容的扩展不受明确的时长限制,能够无缝延伸。
它通过对先前生成内容的最后一帧进行条件化,生成新的片段,从而避免了长序列中的质量退化。换句话说,模型会查看它刚刚创建的最后一帧,以决定接下来生成的内容,确保过渡平滑且质量一致。
这是视频生成器通常保持短视频(大约10秒)的主要原因;如果时长更长,生成的内容往往会失去连贯性。
结果相当令人印象深刻。开发者和爱好者上传到社交媒体的视频显示,该模型确实相当连贯,且图像质量没有下降。
在长场景中,主体始终可以辨认,背景不会扭曲或出现可能损害场景的伪影。
SkyReels-V2 包含多个创新组件,包括一个新的字幕生成器,它将通用语言模型的知识与专门的“镜头专家”模型相结合,确保与电影术语的精确对齐。这有助于系统更好地理解并执行专业的电影技术。
该系统使用多阶段训练流程,逐步从 256p 提升到 720p 分辨率,提供高质量的结果,同时保持视觉的一致性。对于运动质量——AI视频生成中的持续弱点——团队实施了专门设计的强化学习,以改善自然运动模式。
该模型可以在 Skyreels.AI 上试用。用户可以获得足够的积分生成一个视频;其他视频则需要每月订阅,起价为每月 8 美元。
然而,愿意本地运行的人需要一台超强电脑。“使用1.3B模型生成540P视频需要大约14.7GB的峰值VRAM,而使用14B模型生成相同分辨率的视频则需要大约51.2GB的峰值VRAM,”团队在GitHub上表示。
FramePack:效率优先
土豆电脑的拥有者们可以高兴了,因为FramePack也为你们提供了解决方案。
FramePack 提供了与 SkyReels 技术不同的方法,专注于效率,而不仅仅是视频长度。使用 FramePack 节点可以以惊人的速度生成帧——经过优化后,每帧仅需1.5秒——并且只需要 6 GB 的 VRAM。
“使用13B模型生成1分钟(60秒)的30fps(1800帧)视频,最少需要6GB的GPU内存。 (是的,6GB,不是打字错误。笔记本电脑的GPU也可以使用)”该研究团队在项目的官方GitHub库中表示。
这种低硬件要求代表了AI视频技术的民主化,使得先进的生成能力能够在消费级GPU上得到应用。
FramePack模型的大小仅为13亿参数(相比其他模型的数十亿参数),这使得其可以在边缘设备上部署,推动了各行业的广泛应用。
FramePack 是由斯坦福大学的研究人员开发的。团队成员包括 Lvmin Zhang,他在生成AI社区中更为人知的名字是 illyasviel,曾为AI艺术家提供了多种开源资源,例如在SD1.5/SDXL时代革命性的Control Nets和IC Lights节点。
FramePack 的关键创新在于巧妙的内存压缩系统,根据帧的重要性进行优先级排序。系统并非对所有先前的帧一视同仁,而是将更多的计算资源分配给最近的帧,同时逐步压缩较旧的帧。
在 ComfyUI 下使用 FramePack 节点(用于本地生成视频的界面)能够提供非常好的效果——尤其考虑到所需的硬件非常低。爱好者们已经生成了120秒一致的视频,且错误极少,超越了SOTA模型,这些模型虽然提供出色的质量,但当用户推到极限,延长视频时会严重降质。
FramePack 可通过其官方 GitHub 仓库进行本地安装。团队强调,该项目没有官方网站,所有其他以其名义建立的网址都是诈骗网站,与该项目无关。
“不要从任何这些网站支付费用或下载文件,”研究人员警告道。
FramePack的实际好处包括小规模训练的可能性,由于“调度器较不激进,流动步长较为温和”,输出质量更高,长视频中保持一致的视觉质量,以及与现有视频扩散模型(如HunyuanVideo和Wan)的兼容性。
编辑:Sebastian Sinclair 和 Josh Quittner