4 月 3 日消息,谷歌 DeepMind 宣布推出新一代开源模型 Gemma 4。该系列模型定位为 " 参数效率最高 " 的开源模型之一,重点面向推理能力、智能代理工作流以及端侧部署等应用场景,并以 Apache 2.0 许可证开放发布。
Gemma 4 基于与 Gemini 3 相同的研究与技术体系构建。谷歌表示,自首代 Gemma 发布以来,模型累计下载量已超过 4 亿次,开发者社区构建了超过 10 万个衍生版本。Gemma 4 被设计为对 Gemini 系列闭源模型的补充,为开发者提供开源与专有模型结合的开发选择。
此次发布的 Gemma 4 包含四种规模:Effective 2B(E2B)、Effective 4B(E4B)、26B Mixture-of-Experts(MoE)以及 31B Dense。其中 31B 模型在 Arena AI 文本排行榜中位列全球开源模型第三,26B 模型排名第六。谷歌称,这些模型在多项测试中可与参数规模高出约 20 倍的模型竞争。

在功能方面,Gemma 4 重点增强了多步推理与复杂逻辑处理能力,并原生支持函数调用、结构化 JSON 输出和系统指令,使其更适合构建自动化智能代理系统。模型同时支持代码生成能力,可在本地设备上运行离线编程助手。
多模态能力也是该版本的重要更新。Gemma 4 能够原生处理图像和视频,并支持可变分辨率视觉任务,如 OCR 识别与图表理解。其中 E2B 与 E4B 版本还支持音频输入,可用于语音识别和理解。
在上下文长度方面,端侧模型支持最高 128K 上下文窗口,而大型模型最高可达 256K,可一次处理长文档或代码仓库。模型训练覆盖超过 140 种语言,以支持全球化应用开发。
谷歌表示,Gemma 4 针对不同硬件环境进行了优化。26B 和 31B 模型可在单张 80GB NVIDIA H100 GPU 上运行,量化版本也能够在消费级 GPU 上本地部署。E2B 和 E4B 模型则专门面向移动设备和 IoT 设备设计,可在手机、树莓派以及 NVIDIA Jetson 设备上离线运行,并与 Android 生态深度集成。
在生态方面,Gemma 4 发布时已支持包括 Hugging Face Transformers、vLLM、llama.cpp、Ollama、MLX、NVIDIA NeMo 等多种开发框架,同时可在 Google AI Studio、Google Colab 以及 Vertex AI 等平台进行开发和部署。
谷歌表示,通过 Apache 2.0 许可证发布 Gemma 4,开发者可以在本地或云端环境自由使用、修改和部署模型,以促进更开放的 AI 开发生态。(AI 普瑞斯编译)


登录后才可以发布评论哦
打开小程序可以发布评论哦