Gemma 4 QAT 模型：优化移动设备和笔记本电脑的压缩效率

您的浏览器不支持音频元素。收听文章此内容由 Google AI 生成。生成性 AI 是实验性的 [[duration]] 分钟自两个月前发布 Gemma 4 以来，我们不断努力扩展其能力。首先，我们引入了多标记预测（MTP）以加速推理，几天前我们发布了一个 120 亿模型，以弥合我们 E4B 和 260 亿 MOE 模型之间的差距。今天，我们发布了经过量化感知训练（QAT）优化的新检查点，使 Gemma 4 更加高效，因此您可以在日常边缘设备和消费级 GPU 上本地运行模型。通过在训练过程中模拟量化，QAT 最小化了模型压缩时的质量损失。此次发布包括流行的 Q4_0 量化格式的 QAT 检查点，以及针对移动用例的全新量化格式。使用这种移动格式，我们将 Gemma 4 E2B 的内存占用减少到 1GB。这些措施显著降低了内存需求，同时保留了您对 Gemma 4 的期待的能力和质量。保持模型质量的同时使其更小量化是一项关键技术，通过减小内存占用来在消费硬件上运行模型，同时也加速解码速度。然而，标准的后训练量化（PTQ）通常会导致性能下降。QAT 直接将量化过程集成到训练中，而不是仅仅在训练后对模型进行量化。虽然 PTQ 在保持质量方面已经很有效，但我们的 QAT 结果相比标准 PTQ 基准提供了更高的整体质量。我们将此 QAT 配方应用于流行的 Q4_0 格式，以最大化所有模型的性能。对于边缘模型（E2B 和 E4B），我们重新思考了量化的方法，采用了一种专门针对移动的量化方案。节省 VRAM 和存储以下是指示加载模型所需 VRAM 近似内存要求的详细信息：在底层为移动设备优化标准压缩格式通常很难在移动处理器上高效运行。为了确保 Gemma 4 在移动设备上运行顺畅，我们设计了一种专为边缘硬件量身定制的移动量化方案：静态激活：通常，模型通过动态计算如何缩放数据来浪费处理能力。我们在训练期间预先计算了这些设置，从而减少了移动芯片的工作量，使响应更快。通道量化：我们将压缩数据结构化，以适应移动加速器的设计。这使得手机能够本地运行计算，而不需要缓慢的变通方法。定向 2 位量化：我们对生成标记的模型特定部分进行了重压缩（至 2 位），同时保持核心推理层的高精度。这在不降低模型智能的情况下节省了存储。嵌入和 KV 缓存优化：我们专注于对模型的词汇表和短期内存进行压缩。这极大地减少了活动内存占用，使您可以进行长时间的聊天而不会耗尽空间。因为我们的音频和视觉编码器在许多用例中并不是必需的，因此您可以通过仅部署所需的模态来进一步优化内存占用。例如，Gemma 4 E2B 仅文本模型（不含逐层嵌入）所需内存少于 1 GB。立即开始为了便于与您的首选工作流配合使用，我们与生态系统中的热门开发工具合作，开始无缝支持 Gemma 4 QAT 检查点：下载权重：现在在 Hugging Face 上访问 Q4_0 和移动模型权重。我们已为您量身定制这些格式，以适应您的工作流：GGUF 格式可与 llama.cpp 一起使用，提供了压缩张量以供 vLLM 使用。对于其他需求，我们共享未经量化的检查点，可以转换并量化为支持 Q4_0 的格式。集成与学习：浏览我们的文档以了解如何最佳部署 QAT 检查点。在桌面上尝试：使用用户友好的界面（如 llama.cpp、Ollama 和 LM Studio）轻松下载、管理和本地运行 Gemma 4 QAT 模型。在设备上部署：使用 Google 的轻量级 LiteRT-LM 运行时进行优化的边缘部署，或使用 Transformers.js 直接在网页上运行模型。使用您最喜欢的开发工具：使用 vLLM 高效服务更大模型，使用 MLX 针对 Apple Silicon 进行优化。使用 MTP QAT 检查点在量化模型的同时保留 MTP 的加速效果。从 Hugging Face Transformers 和 Unsloth 直接微调权重。我们迫不及待想看到您在本地运行 Gemma 4 时构建的内容！