谷歌最新的DiffusionGemma开放AI模型实现4倍速度提升

又一天，又一个谷歌的AI模型。这一次，谷歌DeepMind发布了Gemma 4开放模型家族的新成员，但它与其他模型有着根本的不同。DiffusionGemma并不像大多数AI模型那样线性生成输出，而是可以并行生成整个文本块。谷歌表示，这使得在本地硬件上运行时，如Nvidia DGX或普通游戏GPU，变得更快和高效。大多数AI模型设计为自回归的——它们一次生成一个标记，从左到右生成文本。DiffusionGemma与图像生成模型有更多共同点，这类模型从静态内容开始，然后去噪以创建所需内容。该模型多次在画布上运行一组占位符标记，以生成可能的标记，并利用这些标记来提高其他标记的估算。在过程结束时，模型以一个大的块来最终确定其标记输出，即“去噪”文本画布。DiffusionGemma在谷歌的开放模型领域中相当庞大。它是一个专家混合（MoE）模型，总共有260亿个参数，但在推理过程中只有38亿个被激活。这意味着它应该适合高端GPU的18GB内存分配。在RTX 5090的测试中，DiffusionGemma每秒输出约700个标记。使用单个Nvidia H100 AI加速器，DiffusionGemma可以产生1000个以上的标记每秒。这大约是同样大小的自回归Gemma模型输出的四倍。注：谷歌这种文本生成的方法将瓶颈从内存带宽转移到计算，能够并行生成最多256个标记。谷歌表示，这为像行内编辑、分子测序和数学图形等非线性任务提供了显著的提升。上面的动画展示了DiffusionGemma如何被调优以解决数独难题，这对于标准自回归AI模型来说是一个非常具有挑战性的任务，因为每个标记都依赖于未来的标记。DiffusionGemma持续自我修正大量标记的能力使这一过程变得更简单。