DiffusionGemma: 4倍快速文本生成

2026年6月10日，我们最新的开放实验模型在专用GPU上提供高达4倍的推理速度，并为探索速度至关重要的互动本地工作流程打开了大门。Brendan O'Donoghue（研究科学家）和Sebastian Flennerhag（研究科学家）撰写。您的浏览器不支持音频元素。收听文章。此内容由Google AI生成。生成性AI是实验性的[[duration]]分钟。今天，我们推出了DiffusionGemma，这是一个探索文本扩散的实验开放模型，这是一种极快的文本生成方法。该模型在Apache 2.0许可证下发布，是一个26B的专家混合模型（MoE），超越了典型自回归大型语言模型（LLM）的逐字处理。相反，它同时生成整个文本块，在GPU上提供高达4倍的文本生成速度。基于我们Gemma 4系列的行业领先参数智能和最前沿的Gemini Diffusion研究，DiffusionGemma整合了一个新颖的扩散头，旨在最大化生成速度。虽然自回归的Gemma 4模型仍然是高质量生产输出的标准，但DiffusionGemma的设计旨在帮助研究人员和开发人员探索速度关键的互动本地工作流程，例如内联编辑、快速迭代和生成非线性文本结构。为开发人员解锁新价值。构建实时互动AI应用的开发人员常常面临本地推理的延迟瓶颈。DiffusionGemma直接解决这些挑战，并做出了一些关键的权衡：闪电般的快速推理：通过将解码瓶颈从内存带宽转移到计算，DiffusionGemma在专用GPU上生成高达4倍的令牌输出。（在单个NVIDIA H100上超过1000个令牌每秒，在NVIDIA GeForce RTX 5090上超过700个令牌每秒。）1可达的硬件占用：作为一个26B总专家混合模型（MoE），在推理过程中仅激活3.8B参数，DiffusionGemma在量化后适合高端专用消费GPU的18GB VRAM限制。双向注意力：每次前向传播并行生成256个令牌，使每个令牌能够关注所有其他令牌。这为内联编辑、代码填充、氨基酸序列或数学图形等非线性领域提供了显著优势。智能自我纠正：该模型迭代地优化其输出，使其能够一次性评估整个文本块以实时修正错误。实验状态及生产建议：由于其优先考虑速度和并行布局生成，DiffusionGemma的整体输出质量低于标准Gemma 4。对于要求最高质量的应用程序，我们建议部署标准Gemma 4。您可以通过微调来提高DiffusionGemma在特定任务上的性能。在下面的例子中，Unsloth微调了DiffusionGemma来玩数独，这是一个自回归模型在未来每个令牌依赖前面令牌的任务中难以处理的任务。DiffusionGemma的双向注意力使这一过程变得更容易。微调后的DiffusionGemma解决数独。为什么选择文本扩散？虽然AI研究社区多年来一直在探索基于扩散的文本生成，但将其应用于大型模型仍然是一项挑战。DiffusionGemma通过改变模型对硬件的使用来解决这个问题。传统模型的权衡：大多数语言模型像打字机一样，从左到右一次生成一个令牌。在云中，这效率高，因为服务器可以将成千上万的用户请求合并在一起以共享硬件负担。但当为单个用户本地运行时，这种逐字过程使您的专用GPU或TPU未得到充分利用——它大部分时间都在等待下一个“按键”。DiffusionGemma逆转了这种低效性。它没有顺序预测单词，而是同时起草整个256个令牌的段落。通过一次性给计算机的处理器一个更大的工作量，DiffusionGemma充分利用了您的硬件。它将您的模型推理从单个连续打字机升级为一个同时印刷整个文本块的大型印刷机。Hugging Face的DiffusionGemma文本到3D SVG演示。逐步生成。这意味着DiffusionGemma的加速设计用于本地和低并发推理。在高QPS云服务中，自回归模型可以有效地饱和计算，因此DiffusionGemma的并行解码提供的收益递减，并可能导致更高的服务成本。在单个加速器上的低到中等批量大小时，吞吐量优势最强。文本扩散的工作原理类似于AI图像生成器，从视觉静态开始并迭代地将其细化为清晰的图像，DiffusionGemma将此应用于文本：画布：模型从一组随机占位符令牌的画布开始。迭代细化：该模式…