返回

文章详情

Gemma 4 12B:一个统一的无编码器多模态模型

Hacker News2026年6月3日 16:04

2026年6月3日,Gemma 4 12B旨在将高性能的多模态智能直接带到您的笔记本电脑,结合移动优先的效率与先进的推理能力。Google Deepmind 产品管理总监 Olivier Lacombe,Google DeepMind 产品经理 Gus Martins。您的浏览器不支持音频元素。收听文章。此内容由 Google AI 生成。生成式 AI 仍在实验阶段[[duration]]分钟。今天,我们推出了 Gemma 4 12B,我们最新的模型,旨在将代理多模态智能直接带入笔记本电脑。它弥补了我们边缘友好的 E4B 和更先进的 26B 专家混合模型(MoE)之间的差距,Gemma 4 12B 在减少内存占用的情况下打包了强大的能力。这也是我们首个具有原生音频输入的中型模型。多亏了开发者社区,Gemma 4 模型现在下载量已超过 1.5 亿次。您构建了一切,从用于物理辅助的可穿戴机器人手臂到企业级 AI 安全系统。我们期待看到您利用这一最新产品构建的应用。以下是使 Gemma 4 12B 独特的几个方面:新颖的统一架构:无需多模态编码器。视觉和音频输入直接流入 LLM 主干。先进的推理能力:基准性能接近我们的 26B 模型,解锁强大的多步推理和代理工作流程。笔记本电脑就绪:仅需 16GB VRAM 或统一内存即可在本地运行。开放和可访问:根据 Apache 2.0 许可证发布,并支持开发者生态系统。草拟者准备好:Gemma 4 12B 配备了多令牌预测(MTP)草拟器,以减少延迟。这些功能将先进的多模态能力带到日常硬件上,而不牺牲速度或推理能力。现在让我们更仔细地看看 Gemma 4 12B 是如何实现这一目标的。在本地运行最先进的代理,Gemma 4 12B 在标准基准测试中的性能接近于我们更大的 26B MoE 模型,但总内存占用不到一半。它足够小,可以在具有 16GB RAM 的消费者笔记本上本地运行,解锁强大的多模态和代理体验。在统一架构中体验独特的效率,Gemma 4 12B 的突出特点在于其流线型处理视觉和音频输入。传统多模态模型通常依赖单独的编码器来翻译图像和音频,然后将这些表示传递给语言模型。由于这些分离的编码器增加了延迟和内存使用,我们以无编码器架构训练了 Gemma 4 12B,以直接整合音频和视觉输入。Gemma 4 12B 如何原生处理多模态输入:视觉:我们用一个轻量级嵌入模块替换了 Gemma 4 的视觉编码器,该模块由单个矩阵乘法、位置嵌入和归一化组成。这允许 LLM 主干接管视觉处理。音频:我们进一步简化了音频处理。我们完全移除了音频编码器,并将原始音频信号投影到与文本令牌相同的维度空间中。对于希望详细了解的开发者,请访问我们的 Gemma 4 12B 开发者指南。今天就开始吧:自己试试:在 LM Studio、Ollama、Google AI Edge Gallery 应用、Google AI Edge Eloquent 应用和 LiteRT-LM CLI 中进行几次点击实验。下载权重:直接从 Hugging Face 和 Kaggle 下载预训练和指令调整后的检查点。集成与学习:查看开发者文档和快速入门笔记本。使用您最喜欢的开发工具:与 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 一起实施本地推理管道,或使用 Unsloth 进行高效微调。使用 Gemma 技能解锁代理开发:为了支持代理利用最新的 Gemma 进展进行构建,我们将发布我们的官方技能库。这是一个专门为使代理能够与 Gemma 模型构建而设计的技能库。以您的方式部署:使用 Google Cloud 启动生产中的端点。通过 Gemini 企业代理平台、模型园、Cloud Run 和 GKE 以您的方式进行部署。相关故事。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡