性能暴增价格不变。
作者 | 程茜 江宇
编辑 | 心缘
智东西 2 月 20 日消息,今日凌晨,谷歌正式发布其新一代旗舰模型Gemini 3.1 Pro。根据谷歌放出的基准测试,谷歌最强复杂任务处理模型 Gemini 3.1 Pro 在12 项测试中超过 Gemini 3 Pro、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.2 等模型,拿下第一。
谷歌 DeepMind 主要提升了 Gemini 3.1 Pro 的推理能力。面对业界公认高难度的 ARC-AGI-2 通用智能基准测试,Gemini 3.1 Pro 斩获77.1%的高分,超越 Claude、GPT 模型,且成绩相较 Gemini 3 Pro 实现翻倍提升。
去年 9 月加入谷歌 DeepMind 的清华物理系传奇人物姚顺宇(Shunyu Yao)也发文官宣了新模型发布,并称" 更好的 Gemini 模型正以势不可挡的速度涌现 "。
下面这一经典的 " 鹈鹕骑自行车 SVG 动画 " 对比,直观体现了新模型的能力提升,右侧 Gemini 3.1 Pro 生成的鹈鹕身体结构、骑行姿态自然合理,且自行车的车架、链条、脚踏、座椅等细节完整,相比 Gemini 3 Pro 的生成结果符合物理常识,更像一个完整的动画场景。
为 Gemini 3.1 开发 SVG 生成功能的清华校友 Jiao Sun,在 X 上评论说 " 无比自豪 "。
从今日起,Google AI Pro、Ultra 订阅用户可以在 Gemini 应用、AI 助手 NotebookLM 中使用 Gemini 3.1 Pro,免费用户可向 Gemini 3.1 Pro 提问 2 次。开发者和企业用户可以在 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 及 Android Studio 的 Gemini API 预览版中使用 Gemini 3.1 Pro。
Gemini 3.1 Pro 预览版的 API 价格采用分级计费模式,与上一代 Gemini 3 Pro 预览版保持一致,提示词在 20 万 token 以内,每百万 token 输入价格 2 美元(约合人民币 14 元),输出价格 12 美元(约合人民币 83 元),提示词超过 20 万 token,每百万 token 输入价格 4 美元(约合人民币 28 元),输出价格 18 美元(约合人民币 124 元)。
01.
能搭 WebOS、能做《我的世界》
还能拆视觉错觉
Gemini 3.1 Pro 的核心升级集中在复杂任务处理能力上。其博客透露,新模型在高级推理、多模态理解和复杂项目生成方面进一步强化,能够更好应对高难度工作场景。模型发布后,社区实测迅速跟进。
知名 AI 博主 Chetaslua 展示了其用 Gemini 3.1 Pro 一次性安装 Windows 11 WebOS 的结果。
Chetaslua 在帖中直言:" 上次我分享类似案例时还非常困难,现在已经变成常态。有了智能体系统,我们几乎可以用这个模型做任何事。"
他之前也发过用 Gemini 3.0 Pro 生成 Windows Web 操作系统的视频,两个视频放一起对比,提升效果非常明显。
Gemini 3.1 Pro 生成的系统界面有完整应用图标、开始菜单样式布局以及基础窗口交互逻辑,整体形态更接近一个可运行的轻量级操作系统。
相比之下,之前 3.0 Pro 生成的系统形态相对简陋,一些基础桌面交互和系统级应用缺失。
另一组更偏工程化的案例显示,有开发者用 Gemini 3.1 Pro 在浏览器中直接生成并运行了一个可交互的 VoxelWeb 项目,形态类似 " 我的世界 " 式 3D 沙盒。
界面已包含启动按钮、移动控制、方块交互以及基础合成逻辑,具备完整的轻量沙盒雏形。
在前端生成与动画细节方面,也有开发者要求模型生成一段完整的交互式生长动画,覆盖种子发芽、根系形成、枝干生长到树叶展开的全过程。
实测结果显示,模型在生长阶段衔接与叶片细节上表现较为完整。该开发者评价称:" 这是我在这个提示词下见过最好的树叶效果。"
视觉理解方向的测试则进一步拉高了难度。有网友专门验证 "AgenticVision" 能力,输入素材是一张看似普通的街头垃圾桶照片。
模型不仅完成了基础识别,还进一步指出:当眯眼或拉远观看时,画面中的垃圾、阴影与轮廓会在视觉上拼合成两个并排而坐的卡通角色。模型还逐项拆解了这一视觉错觉的形成机制,解释不同布料、垃圾袋与阴影分别对应角色的头部、身体与外轮廓关系,体现出多步视觉推理能力。
整体来看,Gemini 3.1 Pro 已经开始触及空间关系理解、形状映射和视觉错觉解释等更高阶视觉认知任务。开发者给出的综合判断是,其表现已进入当前第一梯队水平。
我们还用 " 开车还是步行去距离 100 米的洗车店洗车 "、" 父母能否结婚 " 等陷阱题考了考 Gemini 3.1 Pro,结果它都成功避坑答对。
02.
手搓《模拟城市》
创意编程、交互式设计分分钟搞定
谷歌 DeepMind 的官方 X 账号展示了谷歌 UX 工程师 Michael Chang 用 Gemini 3.1 Pro 开发了一个逼真的城市规划应用程序。Gemini 3.1 Pro 能自己处理复杂地形、绘制基础设施图、模拟交通,最后生成高质量的可视化效果。
除了上面提到的鹈鹕骑自行车,Gemini 3.1 Pro 在生成青蛙骑老式高轮自行车、长颈鹿驾驶微型汽车、鸵鸟穿着旱冰鞋等各种抽象画面的 SVG 动画上,表现也毫不逊色。相比 Gemini 3 Pro,Gemini 3.1 Pro 的生成效果整体场景更生动、更有故事感,细节表现力大幅提升。
如 Gemini 3.1 Pro 可以直接根据文本提示生成可用于网站的动画 SVG,并且由于这些动画是用纯代码而非像素构建的,因此在任何尺寸下都能保持清晰,并且文件体积相比传统视频非常小。
Gemini 3.1 Pro 的复杂推理能力,能帮助用户使用复杂 API 完成设计。如下面案例,该模型构建了一个实时航空航天仪表盘,成功配置了公共遥测数据流,以可视化国际空间站的轨道运行轨迹。
在交互式设计方面,Gemini 3.1 Pro 可以编写代码,生成一个复杂的3D 椋鸟群飞模拟。并且其还能构建沉浸式体验,用户可以通过手势追踪操控鸟群,同时聆听一段生成式配乐,音乐会随着鸟群的动态变化而改变。
Gemini3.1 Pro 还能进行创意编程, 将文学主题转化为可运行的代码。当被要求为艾米莉 · 勃朗特(Emily Brontë)的《呼啸山庄》构建一个现代个人作品集网站时,该模型深入分析了小说的氛围基调,设计出一个简洁现代的界面,打造出一个能捕捉主角精神内核的网站。
03.
编程、推理、多模态样样行
数项测试超 Claude、GPT 模型
研究人员在一系列基准测试中对 Gemini 3.1 Pro 进行了评估,包括推理、多模态能力、智能体工具使用、多语言性能和长上下文。
相比 Gemini 3 Pro、Claude Sonnet 4.6、Claude Opus 4.6、GPT-5.2、GPT-5.3-Codex,Gemini 3.1 Pro在 12 项基准测试中拿下第一。
在需要更强推理能力的测试中,Gemini 3.1 Pro 在人类最后的考试、ARC-AGI-2、GPQA Diamond 3 项测试中,表现都优于 Claude、GPT 模型。
编程能力测试中,Gemini 3.1 Pro 在 SWE-Bench Pro(公开版)和 SWE-Bench Verified 中得分相对较低,这两大测试集考验的是模型在真实项目中理解需求、定位问题、修改代码、保证可用的端到端工程能力。
GDPval-AA Elo 是当前衡量大模型在高价值知识工作中综合能力的相对评分体系,Gemini 3.1 Pro 的表现优于 GPT-5.2、GPT-5.3-Codex,仅次于 Sonnet 4.6。
衡量大模型工具使用能力的 τ2-bench、MCP Atlas、BrowseComp、多语言性能的 MMLU、长上下能力的 MRCR v2 测试集中,新模型的表现同样优于其他模型。
在多模态大模型学术评测基准 MMMU-Pro 上,Gemini 3.1 Pro 的表现比 Claude、GPT 模型更好,但略逊于 Gemini 3 Pro。
04.
结语:大模型竞赛焦点
转向复杂任务落地能力
当前大模型行业正从通用能力比拼,转向真实世界复杂任务的实战能力竞争,海内外各家模型在推理、工程化、多模态理解等核心能力上不断发力突破,力求让大模型真正落地应用,与真实业务场景相结合。
谷歌近期的加速布局也是如此,其上周发布了 Gemini 3 Deep Think 模型升级、一周后又推出 Gemini 3.1 Pro,都将模型的升级重点放在专业领域加速技术研发、解决实际工作中的复杂问题上。可以看出,当下大模型已经让更智能的大模型真正具备解决真实世界复杂任务能力,AI 成为专业领域核心生产力的潜力增加。


登录后才可以发布评论哦
打开小程序可以发布评论哦