直面派 4小时前
奥特曼都点赞,谷歌Gemini 3 Pro到底强在哪?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌可算是发布 Gemini 3 Pro 了,很突然,而且很 " 低调 "。

虽然谷歌在 Gemini 3 Pro 之前发布了图片编辑模型 Nano Banana,进而刷了一波存在感。但是在基座模型方面,谷歌已经静默太久。

过去这大半年,大家都在热议 OpenAI 的新动作,或者感叹 Claude 在代码领域的统治力,唯独没有人提及 8 个月没有版本号升级的 Gemini。

纵使谷歌的云业务和财报再漂亮,可在 AI 开发者的核心圈子里,谷歌的存在感仍然被一点点的稀释。

好在的是,小榜在第一时间体验过后发现,Gemini 3 Pro 并没有让我们失望。

但现在还不能过早下结论。因为现在的 AI 赛道早就已经过了靠参数量吓人的阶段,大家都在卷应用、卷落地、卷成本。

谷歌能不能适应新版本和新环境,还是个未知数。

01

我让 Gemini 3 Pro 用一句话来形容自己,它是这么回答我的。

" 不再急于向世界证明自己有多聪明,而是开始琢磨如何让自己变得更有用。" —— Gemini 3 Pro

在 LMArena 排行榜上,Gemini 3 Pro 以 1501 的 Elo 分数登顶,这是 AI 模型在综合能力评估中的新纪录。这是一个相当优秀的成绩,就连奥特曼也发推表示祝贺。

数学能力测试中,该模型在 AIME2025(美国数学邀请赛)的代码执行模式下达到了 100% 的准确率。在 GPQADiamond 科学知识测试中,Gemini 3 Pro 的准确率为 91.9%。

MathArenaApex 数学竞赛的测试结果显示,Gemini 3 Pro 获得了 23.4% 的得分,而其他主流模型的得分普遍在 2% 以下。此外,在名为 Humanity'sLastExam 的测试中,该模型在不使用工具的情况下达到了 37.5% 的得分。

Google 在此次更新中引入了名为 "vibecoding" 的代码生成功能。这项功能允许用户通过自然语言描述需求,系统随后生成相应的代码和应用程序。

在 Canvas 编程环境的测试中,用户描述 " 制作一个可以调节转速的电风扇 " 后,系统在约 30 秒内生成了包含旋转动画、速度控制滑块和开关按钮的完整代码。

官方展示的案例还包括核聚变过程的可视化模拟。

在交互方式上,Gemini 3 Pro 增加了 " 生成式界面 "(GenerativeUI)功能。与传统 AI 助手只返回文本回答不同,该系统可以根据查询内容自动生成定制化的界面布局。

例如,当用户询问量子计算相关问题时,系统可能生成包含概念解释、动态图表和相关论文链接的交互式界面。

针对不同受众的同一问题,系统会生成不同的界面设计,举个简单例子,向儿童和成人解释同一概念时,会采用不同的呈现方式。儿童的就会偏可爱,成人则会偏简洁明了。

Google Labs 中提供的 Visual Layout 实验功能展示了这种界面的应用,用户可以获得杂志风格的视图布局,包含图片、模块和可调节的 UI 元素。

此次发布还包含了名为 Gemini Agent 的智能体系统,目前处于实验阶段。该系统可以执行多步骤任务,并连接到 Gmail、Google Calendar 和 Reminders 等谷歌服务。

在收件箱管理场景中,系统可以自动筛选邮件、标记优先级和起草回复。旅行规划是另一个应用场景,用户只需提供目的地和大致时间,系统会查询日历、搜索航班和酒店选项,并添加行程安排。而这项功能目前仅向美国地区的 Google AI Ultra 订阅用户开放。

在多模态处理方面,Gemini 3 Pro 基于稀疏混合专家架构构建,支持文本、图像、音频和视频输入。模型的上下文窗口为 100 万 token,意味着可以处理较长的文档或视频内容。

加拿大劳瑞尔大学历史学教授 Mark Humphries 的测试显示,该模型在识别 18 世纪手写文稿时的字符错误率为 0.56%,相比前代版本降低了 50% 到 70%。

Google 表示,训练数据包括公开网络文档、代码、图像、音频和视频内容,后训练阶段使用了强化学习技术。

Google 还推出了名为 Gemini 3 Deep Think 的优化版本,专门用于复杂推理任务。该模式目前正在进行安全评估,计划在未来几周向 Google AI Ultra 订阅者开放。

在 Google Search 的 AI 模式中,用户可以点击 "thinking" 选项卡查看该模式的推理过程。与标准模式相比,Deep Think 模式会在生成回答前进行更多步骤的分析。

除了官方提供的资料外,我还将 Gemini 3 Pro 和 ChatGPT-5.1 进行了对比。

第一个对比就是生成图片。

提示词:给我生成一张 iPhone17

ChatGPT-5.1

Gemini 3 Pro

主观上来讲,ChatGPT-5.1 更符合我的需求,因此这回合是 ChatGPT-5.1 胜出。

第二个对比的就是两者的智能体水平。

提示词:去给我研究研究字母榜这个微信公众号,然后评论一下这个号的水平

GPT-5.1

虽然从主观上来讲,我更喜欢 Gemini 3 Pro 的解读,但是太过于鼓吹,ChatGPT-5.1 能发现小榜还有所不足,更客观真实。

最后是代码能力,也是目前所有大模型最关注的一块。

我选的项目是 GitHub 上最近星数非常高的项目,叫做 LightRAG。这是通过整合图结构来增强上下文感知和高效信息检索,从而改进检索增强生成,实现了更高的准确性和更快的响应时间。项目地址 https://github.com/HKUDS/LightRAG

提示词:跟我说说这个项目如何

GPT-5.1

Gemini 3 Pro

同时,Gemini 3 Pro 也获得了业内人士的高度评价。

02

虽然 Gemini 3 Pro 发布的非常低调,但实际上谷歌已经为 Gemini 3 Pro 预热了很久。

在谷歌第三季度财报电话会上,谷歌 CEO 皮查伊说了这么一句话:"Gemini 3 Pro 将在 2025 年内发布。" 没有具体日期,没有更多细节,却拉开了科技行业一场营销大戏的序幕。

谷歌不断释放信号,让整个 AI 社区保持高度关注,却始终拒绝给出任何确定的发布时间表。

从 10 月开始,各种 " 意外泄露 " 接踵而至。10 月 23 日开始流传一份日历,在其 11 月 12 日 "Gemini 3 Pro Release" 的内部日历截图疯传。

而且眼尖的开发者还在 Vertex AI 的 API 文档中发现了 "gemini-3-pro-preview-11-2025" 的字样。

紧接着,Reddit 和 X 上开始出现各种截图。有用户声称在 Gemini Canvas 工具中看到了新模型的身影,有人在移动应用的某些版本中发现了异常的模型标识。

然后就是,下面这张测试数据开始在社交媒体流传。

这些 " 泄露 " 看似偶然,实则构成了一场精心编排的预热。

每一次泄露都恰到好处地展示了 Gemini 3 Pro 的某项核心能力,每一次讨论都将期待值推向新的高度。而 谷歌官方账号的态度则耐人寻味,他们会转发社区的讨论,会用 " 即将到来 " 这样的措辞吊胃口,甚至谷歌 AI 实验室的高层,还在关于发布日期预测的推文下回复了两个 " 思考 " 表情符号,但就是不肯说出一个准确日期。

预热了将近 1 个月,谷歌终于将新鲜的 Gemini 3 Pro 端了上来。然而 Gemini 3 Pro 性能虽然强劲,但是谷歌的更新频率多少让人有点着急。

早在今年 3 月份的时候,谷歌就发布了 Gemini 2.5 Pro 的预览版本,后续又陆续推出了 Gemini 2.5 Flash 预览版等衍生预览版本。直至 Gemini 3 Pro 问世,Gemini 系列在此期间无任何版本号升级。

可谷歌的对手们并不会等待 Gemini。

OpenAI 在 8 月 7 日推出了 GPT-5,并在 11 月 12 日进一步升级到 GPT-5.1。而且这段时间里,OpenAI 还推出了自己的 AI 浏览器 Atlas,直指谷歌腹地。

Anthropic 的迭代速度更为密集 :2 月 24 日发布 Claude 3.7 Sonnet ( 首个混合推理模型 ) ,5 月 22 日推出 Claude Opus 4 和 Sonnet 4,8 月 5 日发布 Claude Opus 4.1,9 月 29 日推出 Claude Sonnet 4.5,10 月 15 日又发布了 Claude Haiku 4.5。

这一系列攻势打得谷歌有些措手不及,不过目前来看,谷歌顶住了。

03

谷歌之所以耗时 8 个月才更新 Gemini 3 Pro,最大的原因可能来自于人员上的变更。

2025 年 7 月至 8 月前后,微软对谷歌发起了一波猛烈的人才攻势,成功招募了超过 20 名 DeepMind 的核心专家和高管。

这其中就包括 DeepMind 高级产品总监(Senior Director of Product)戴夫 · 希创(Dave Citron),负责其核心 AI 产品的落地。以及 Gemini 的工程副总裁 ( VP of Engineering ) 阿玛尔 · 苏布拉马尼亚(Amar Subramanya),他是 Google 最重要模型 Gemini 的核心工程负责人之一。

另外一方面,谷歌 Nano Banana 团队曾表示,谷歌在发布 Gemini 2.5 Pro 后很长一段时间里,都在纠结 AI 生图领域,进而放缓了基座模型的更新。

谷歌认为,只有攻克了角色一致性 ( Character Consistency ) 、语境编辑 ( In-context Editing ) 、文字乱码 ( Text Rendering ) 这三个生成图片领域的难关后,才能让基座模型的表现更好。

Nano Banana 团队表示,模型不仅能 " 画得好看 ",更重要的是能 " 听懂人话 " 并 " 受人控制 ",从而让 AI 生图真正进入商业落地阶段。

这时回头来看 Gemini 3 Pro,它是一份合格的答卷,但在这个只争朝夕的 AI 战场,及格早已不够。

谷歌既然选择了在此时此刻交卷,就必须准备好面对最苛刻的阅卷人,那些已经被竞品 " 喂刁 " 了口味的用户和开发者。接下来的几个月,将不是模型参数的比拼,而是生态整合能力的肉搏。谷歌这头大象不仅要学会跳舞,还得跳得比所有人都快。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 奥特曼 ai 界面 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论