谷歌发布DiffusionGemma开源模型：并行生成提速4倍

谷歌近日发布了一款名为 DiffusionGemma 的实验性 AI 模型。该模型采用 Apache 2.0 许可证开源，主要面向开发者与研究人员。与当前主流聊天机器人采用的自回归（Autoregressive）逐词生成模式不同，DiffusionGemma 引入了一种截然不同的文本构建逻辑：它一次性生成整段文本雏形，随后通过多次迭代进行打磨润色，直至内容可读。

打破线性限制，并行生成提速显著

传统大语言模型（如 Gemma 4）受限于自回归机制，每个新 token 的生成都严格依赖前文，这种固有的顺序性成为加速的主要瓶颈。DiffusionGemma 则从一个充满随机噪声的 " 画布 " 起步，通过并行处理反复清理和优化文本。随着迭代推进，输出内容逐渐变得结构化且连贯。简而言之，传统模型是在 " 写作 "，而 DiffusionGemma 则是同时完成 " 起草 " 与 " 编辑 "。

这一架构转变带来了显著的性能提升。谷歌表示，在低并发场景下，DiffusionGemma 的速度可达标准自回归模型的 4 倍。具体硬件表现方面，在 NVIDIA H100 上，其每秒可处理超过 1,000 个 token；在消费级旗舰显卡 RTX 5090 上，每秒也能处理约 700 个 token。

260 亿参数 MoE 架构，适配高端消费级 GPU

在底层设计上，DiffusionGemma 是一个拥有 260 亿参数的混合专家（MoE）模型。但在推理过程中，它仅激活约 38 亿个参数，从而将计算需求控制在合理范围。经过量化处理后，该模型可在显存约为 18GB 的高端消费级 GPU 上运行。

其核心优势在于全局视野。模型能在单步中并行生成多达 256 个 token，且每个 token 均可关注块内其他所有 token。这使得它能够在同一生成周期内发现并纠正矛盾，无需等待后续 token 修复，特别适合对整体一致性要求高于逐句流畅度的场景。

定位实验性工具：速度优先，精度让步

尽管速度优势明显，但 DiffusionGemma 存在明显的短板。谷歌直言，其输出质量无法与标准的 Gemma 4 模型相媲美，文字稳定性较差，在处理复杂或细微回应时可靠性较低。

因此，该模型并非旨在取代现有的 Gemini 或 Gemma 系列，而是定位为一种 " 速度优先 " 的实验性工具。它更适用于实时 AI 工具、行内编程助手、JSON 等结构化格式填充，以及解决数独类逻辑谜题等场景。在这些工作流中，用户更看重即时反馈与效率，而非最终文本的完美精致度。

【星途科讯图文丨欧阳布布】

宙世代

一起剪

相关标签