星途科讯 8小时前
谷歌发布DiffusionGemma开源模型:并行生成提速4倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌近日发布了一款名为 DiffusionGemma 的实验性 AI 模型。该模型采用 Apache 2.0 许可证开源,主要面向开发者与研究人员。与当前主流聊天机器人采用的自回归(Autoregressive)逐词生成模式不同,DiffusionGemma 引入了一种截然不同的文本构建逻辑:它一次性生成整段文本雏形,随后通过多次迭代进行打磨润色,直至内容可读。

打破线性限制,并行生成提速显著

传统大语言模型(如 Gemma 4)受限于自回归机制,每个新 token 的生成都严格依赖前文,这种固有的顺序性成为加速的主要瓶颈。DiffusionGemma 则从一个充满随机噪声的 " 画布 " 起步,通过并行处理反复清理和优化文本。随着迭代推进,输出内容逐渐变得结构化且连贯。简而言之,传统模型是在 " 写作 ",而 DiffusionGemma 则是同时完成 " 起草 " 与 " 编辑 "。

这一架构转变带来了显著的性能提升。谷歌表示,在低并发场景下,DiffusionGemma 的速度可达标准自回归模型的 4 倍。具体硬件表现方面,在 NVIDIA H100 上,其每秒可处理超过 1,000 个 token;在消费级旗舰显卡 RTX 5090 上,每秒也能处理约 700 个 token。

260 亿参数 MoE 架构,适配高端消费级 GPU

在底层设计上,DiffusionGemma 是一个拥有 260 亿参数的混合专家(MoE)模型。但在推理过程中,它仅激活约 38 亿个参数,从而将计算需求控制在合理范围。经过量化处理后,该模型可在显存约为 18GB 的高端消费级 GPU 上运行。

其核心优势在于全局视野。模型能在单步中并行生成多达 256 个 token,且每个 token 均可关注块内其他所有 token。这使得它能够在同一生成周期内发现并纠正矛盾,无需等待后续 token 修复,特别适合对整体一致性要求高于逐句流畅度的场景。

定位实验性工具:速度优先,精度让步

尽管速度优势明显,但 DiffusionGemma 存在明显的短板。谷歌直言,其输出质量无法与标准的 Gemma 4 模型相媲美,文字稳定性较差,在处理复杂或细微回应时可靠性较低。

因此,该模型并非旨在取代现有的 Gemini 或 Gemma 系列,而是定位为一种 " 速度优先 " 的实验性工具。它更适用于实时 AI 工具、行内编程助手、JSON 等结构化格式填充,以及解决数独类逻辑谜题等场景。在这些工作流中,用户更看重即时反馈与效率,而非最终文本的完美精致度。

【星途科讯 图文丨欧阳布布】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 开源 gpu 成都
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论