谷歌最新的DiffusionGemma开放AI模型实现4倍速度提升
又一天,又一个谷歌的AI模型。这一次,谷歌DeepMind发布了Gemma 4开放模型家族的新成员,但它与其他模型有着根本的不同。DiffusionGemma并不像大多数AI模型那样线性生成输出,而是可以并行生成整个文本块。谷歌表示,这使得在本地硬件上运行时,如Nvidia DGX或普通游戏GPU,变得更快和高效。大多数AI模型设计为自回归的——它们一次生成一个标记,从左到右生成文本。DiffusionGemma与图像生成模型有更多共同点,这类模型从静态内容开始,然后去噪以创建所需内容。该模型多次在画布上运行一组占位符标记,以生成可能的标记,并利用这些标记来提高其他标记的估算。在过程结束时,模型以一个大的块来最终确定其标记输出,即“去噪”文本画布。DiffusionGemma在谷歌的开放模型领域中相当庞大。它是一个专家混合(MoE)模型,总共有260亿个参数,但在推理过程中只有38亿个被激活。这意味着它应该适合高端GPU的18GB内存分配。在RTX 5090的测试中,DiffusionGemma每秒输出约700个标记。使用单个Nvidia H100 AI加速器,DiffusionGemma可以产生1000个以上的标记每秒。这大约是同样大小的自回归Gemma模型输出的四倍。注:谷歌 这种文本生成的方法将瓶颈从内存带宽转移到计算,能够并行生成最多256个标记。谷歌表示,这为像行内编辑、分子测序和数学图形等非线性任务提供了显著的提升。上面的动画展示了DiffusionGemma如何被调优以解决数独难题,这对于标准自回归AI模型来说是一个非常具有挑战性的任务,因为每个标记都依赖于未来的标记。DiffusionGemma持续自我修正大量标记的能力使这一过程变得更简单。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡