FramePack 降低 AI视频生成硬件门槛,6GB 显存即可生成 60 秒视频

这里是AI贴吧网-AI资讯的硬核前线!我们24小时监测全球实验室动态,算法追踪巨头动向、代码解析学术突破,用最“硅基”视角解秘AI革命浪潮!

来自GitHub的LvminZhang与斯坦福大学的ManeeshAgrawala合作,共同推出了一项名为FramePack的创新技术。该技术通过采用固定长度的时域上下文(fixed-lengthtemporalcontext)对视频扩散模型(videodiffusion)进行了实用化实现,显著提高了处理效率,使得在较低硬件配置下生成更长、更高质量的AI视频成为可能。基于FramePack架构构建的一个130亿参数模型,仅需6GB显存即可生成长达60秒的视频片段。

据1AI了解,FramePack是一种神经网络架构,其核心优势在于利用多阶段优化技术,有效降低了本地运行AI视频生成任务对硬件的要求。据报道,目前FramePack的图形用户界面(GUI)内部运行的是一个定制的、基于混元(Hunyuan)的模型,但研究论文同时指出,现有的预训练模型也可以通过FramePack技术进行微调以适配该架构。

传统的视频扩散模型在生成视频时,通常需要处理先前生成的所有带噪帧(noisyframes)数据来预测下一个噪声更少的帧。这个过程中所参考的输入帧数量被称为“时域上下文长度”,它会随着视频长度的增加而增长。这导致标准的视频扩散模型对显存(VRAM)有着极高的要求,通常需要12GB甚至更多。虽然可以通过降低视频长度、牺牲画面质量或延长处理时间来减少显存消耗,但这并非理想解决方案。

为此,FramePack应运而生。该新架构能根据帧的重要性对其进行压缩,并汇集到一个固定大小的上下文长度内,从而极大地降低了GPU的显存开销。所有输入帧都经过压缩处理,以确保满足预设的上下文长度上限。研究者表示,经过优化后,FramePack的计算成本与图像扩散模型的成本相近。

此外,FramePack还结合了缓解“漂移”(drifting)现象的技术——即视频质量随长度增加而下降的问题,从而在不显著牺牲保真度的情况下,支持生成更长的视频内容。

在硬件兼容性方面,目前FramePack明确要求使用支持FP16和BF16数据格式的英伟达RTX30、40或50系列GPU。对于图灵(Turing)架构及更早的英伟达显卡,以及AMD和Intel的硬件支持情况,目前尚未得到验证。操作系统方面,Linux已确认在支持列表之中。考虑到6GB显存的需求,除了RTX30504GB等少数型号外,市面上大多数现代RTX显卡都能满足运行要求。

性能方面,以RTX4090为例,在启用teacache优化后,生成速度可达约每秒0.6帧。实际速度会因用户显卡型号的不同而有所差异。值得一提的是,FramePack在生成过程中会逐帧显示画面,提供即时的视觉反馈。

目前,FramePack所使用的模型可能有30帧/秒的上限,这或许会限制部分用户的需求,但FramePack的出现无疑为普通消费者进行AI视频创作铺平了道路,提供了一种替代昂贵第三方云服务的可行方案。即使对于非专业内容创作者,这项技术也为制作GIF动图、表情包等娱乐内容提供了有趣的工具。

想掌握最新AI隐藏技能?挖透巨头紧急下架产品的真相?点击【AI贴吧网-AI资讯】,深度解析+实战案例,智能刷新你的认知!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注