27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI模型,RTX 3090 显卡可运行

这里是AI贴吧网-AI资讯的硬核前线!我们24小时监测全球实验室动态,算法追踪巨头动向、代码解析学术突破,用最“硅基”视角解秘AI革命浪潮!

谷歌公司昨日(4月18日)发布博文,发布了量化感知训练(QAT)优化版Gemma3模型,在保持高质量的同时,降低内存需求。

谷歌上月推出Gemma3开源模型,能在单台NVIDIAH100GPU上以BFloat16(BF16)精度高效运行。

1AI援引博文介绍,谷歌为响应用户需求,致力于让Gemma3的强大性能适配普通硬件。量化技术是关键,通过降低模型参数的数值精度(如从BF16的16位降至int4的4位),类似图像压缩减少颜色数量,大幅减少数据存储量。

以int4量化为例,Gemma327B显存需求从54GB锐减至14.1GB,Gemma312B则从24GB降至6.6GB;Gemma31B仅需0.5GB显存。

这意味着用户可在桌面(NVIDIARTX3090)或笔记本(NVIDIARTX4060LaptopGPU)上运行强大AI模型,甚至手机也能支持小型模型。

为避免量化导致性能下降,谷歌采用量化感知训练(QAT)技术,在训练过程中模拟低精度运算,确保模型在压缩后仍保持高准确性。Gemma3QAT模型在约5000步训练中,将困惑度下降减少了54%。

Ollama、LMStudio和 llama.cpp 等主流平台已集成该模型,用户可通过HuggingFace和Kaggle获取官方int4和Q4_0模型,轻松在AppleSilicon或CPU上运行。此外,Gemmaverse社区提供了更多量化选项,满足不同需求。

想掌握最新AI隐藏技能?挖透巨头紧急下架产品的真相?点击【AI贴吧网-AI资讯】,深度解析+实战案例,智能刷新你的认知!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注