在OpenAI经历了数月的推迟并持续吊足胃口时,腾讯悄然推出了一款已经展现出与现有顶级视频生成器相当的效果的模型。
腾讯发布了Hunyuan Video,这是一款免费且开源的AI视频生成器,发布时恰逢OpenAI为期12天的公告活动,外界普遍预计该活动将包括其备受期待的视频工具Sora的首秀。
腾讯在官方公告中表示:“我们推出了Hunyuan Video,这是一款新型的开源视频基础模型,在视频生成方面的表现堪比甚至优于领先的闭源模型。”
这家总部位于中国深圳的科技巨头声称,基于专业人员的人工评估结果,其模型在性能上“超越”了Runway Gen-3、Luma 1.6以及“三款顶尖的中国视频生成模型”。
时机再合适不过。
在发布这一视频生成器之前——它位于SDXL和Flux时代的开源图像生成器之间——腾讯推出了一款名字相似的图像生成器。HunyuanDit提供了优异的结果,并提高了对双语文本的理解,但并未被广泛采用。这个系列最终与一组大型语言模型一起完成。
Hunyuan Video使用解码器专用的多模态大型语言模型作为文本编码器,而不是其他AI视频工具和图像生成器中常见的CLIP和T5-XXL组合。腾讯表示,这有助于模型更好地遵循指令,更准确地把握图像细节,并且能够无需额外训练便快速学习新任务——此外,它的因果注意机制还通过一个特殊的token细化器得到了增强,帮助它比传统模型更全面地理解提示。
该模型还会重写提示词,使其更加丰富,从而提高生成内容的质量。例如,一个简单的提示“一个人牵着他的狗走”可以被增强,加入更多细节、场景设定、光线条件、画质瑕疵、种族等元素。
面向大众免费开放
与Meta的LLaMA 3类似,Hunyuan是免费的,且在用户数量达到1亿之前,开发者可以自由使用并进行变现——这是一个大多数开发者在短期内不需要担心的门槛。
但有个条件?你需要一台至少有60GB GPU内存的强力计算机来本地运行其130亿参数的模型——例如Nvidia H800或H20显卡。这比大多数游戏PC的总vRAM还要大。
对于没有超级计算机的人来说,云服务已经开始提供支持。FAL.ai,一家面向开发者的生成媒体平台,已经集成了Hunyuan,每个视频收费0.5美元。其他云服务提供商,包括Replicate和GoEhnance,也已开始提供该模型的访问。官方Hunyuan Video服务器提供150个积分,价格为10美元,每个视频生成至少需要15个积分。
当然,用户还可以通过像Runpod或Vast.ai等服务,租用GPU来运行该模型。
早期测试表明,Hunyuan的质量与Luma Labs Dream Machine或Kling AI等商业巨头相当。视频生成大约需要15分钟,能够生成具有自然人类和动物动作的逼真序列。
测试显示了一个当前的弱点:该模型对英文提示的理解可能不如其竞争对手。但是,作为开源项目,开发者可以对其进行修改并改进。
腾讯表示,其文本编码器在内部测试中达到了68.5%的对齐率——即输出与用户要求的匹配度——同时保持了96.4%的视觉质量评分。
完整的源代码和预训练权重可在GitHub和Hugging Face平台上下载。
编辑:Sebastian Sinclair