Gemma 4 12B：一个统一的无编码器多模态模型

2026年6月3日，Gemma 4 12B旨在将高性能的多模态智能直接带到您的笔记本电脑，结合移动优先的效率与先进的推理能力。Google Deepmind 产品管理总监 Olivier Lacombe，Google DeepMind 产品经理 Gus Martins。您的浏览器不支持音频元素。收听文章。此内容由 Google AI 生成。生成式 AI 仍在实验阶段[[duration]]分钟。今天，我们推出了 Gemma 4 12B，我们最新的模型，旨在将代理多模态智能直接带入笔记本电脑。它弥补了我们边缘友好的 E4B 和更先进的 26B 专家混合模型（MoE）之间的差距，Gemma 4 12B 在减少内存占用的情况下打包了强大的能力。这也是我们首个具有原生音频输入的中型模型。多亏了开发者社区，Gemma 4 模型现在下载量已超过 1.5 亿次。您构建了一切，从用于物理辅助的可穿戴机器人手臂到企业级 AI 安全系统。我们期待看到您利用这一最新产品构建的应用。以下是使 Gemma 4 12B 独特的几个方面：新颖的统一架构：无需多模态编码器。视觉和音频输入直接流入 LLM 主干。先进的推理能力：基准性能接近我们的 26B 模型，解锁强大的多步推理和代理工作流程。笔记本电脑就绪：仅需 16GB VRAM 或统一内存即可在本地运行。开放和可访问：根据 Apache 2.0 许可证发布，并支持开发者生态系统。草拟者准备好：Gemma 4 12B 配备了多令牌预测（MTP）草拟器，以减少延迟。这些功能将先进的多模态能力带到日常硬件上，而不牺牲速度或推理能力。现在让我们更仔细地看看 Gemma 4 12B 是如何实现这一目标的。在本地运行最先进的代理，Gemma 4 12B 在标准基准测试中的性能接近于我们更大的 26B MoE 模型，但总内存占用不到一半。它足够小，可以在具有 16GB RAM 的消费者笔记本上本地运行，解锁强大的多模态和代理体验。在统一架构中体验独特的效率，Gemma 4 12B 的突出特点在于其流线型处理视觉和音频输入。传统多模态模型通常依赖单独的编码器来翻译图像和音频，然后将这些表示传递给语言模型。由于这些分离的编码器增加了延迟和内存使用，我们以无编码器架构训练了 Gemma 4 12B，以直接整合音频和视觉输入。Gemma 4 12B 如何原生处理多模态输入：视觉：我们用一个轻量级嵌入模块替换了 Gemma 4 的视觉编码器，该模块由单个矩阵乘法、位置嵌入和归一化组成。这允许 LLM 主干接管视觉处理。音频：我们进一步简化了音频处理。我们完全移除了音频编码器，并将原始音频信号投影到与文本令牌相同的维度空间中。对于希望详细了解的开发者，请访问我们的 Gemma 4 12B 开发者指南。今天就开始吧：自己试试：在 LM Studio、Ollama、Google AI Edge Gallery 应用、Google AI Edge Eloquent 应用和 LiteRT-LM CLI 中进行几次点击实验。下载权重：直接从 Hugging Face 和 Kaggle 下载预训练和指令调整后的检查点。集成与学习：查看开发者文档和快速入门笔记本。使用您最喜欢的开发工具：与 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 一起实施本地推理管道，或使用 Unsloth 进行高效微调。使用 Gemma 技能解锁代理开发：为了支持代理利用最新的 Gemma 进展进行构建，我们将发布我们的官方技能库。这是一个专门为使代理能够与 Gemma 模型构建而设计的技能库。以您的方式部署：使用 Google Cloud 启动生产中的端点。通过 Gemini 企业代理平台、模型园、Cloud Run 和 GKE 以您的方式进行部署。相关故事。