全天候科技 5小时前
Gemini 3的意义:AI已超越“幻觉阶段”,逼近人类,“人机协作”将从“人对AI纠错”走向“人指导AI工作”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌最新发布的 Gemini 3 模型正标志着人工智能领域的一个关键转折点。

华尔街见闻此前提及,美东时间 18 日周二,谷歌正式发布备受期待的该司迄今最强大人工智能(AI)模型 Gemini 3,并于发布首日立即在谷歌搜索、Gemini 应用程序 App 及多个开发者平台同步上线,在多个盈利产品中投入使用。

谷歌高管在新闻发布会上强调,在衡量人工智能模型性能的几个热门行业排行榜上,Gemini 3 处于领先地位。谷歌 AI 研究实验室 DeepMind 的 CEO Demis Hassabis 表示,Gemini 3 是 " 世界上最好的多模态理解模型 ",也是公司迄今最强大的智能体和代码生成模型。

根据沃顿商学院教授 Ethan Mollick 的深度测评,Gemini 3 的发布及其配套工具 "Antigravity" 展示了惊人的 " 代理 " 能力。与三年前的 GPT-3 模型相比,AI 不再仅仅是生成文本,而是能够编写代码、构建可交互的应用、执行多步骤任务。

Mollick 指出,这种从 " 描述 " 到 " 行动 " 的飞跃,意味着 AI 正从一个对话伙伴,演变为一个可以接入计算机并完成实际工作的通用工具。

Mollick 的结论是,我们正从 " 聊天机器人时代 " 迈向 " 数字同事时代 "。Gemini 3 虽然并非完美无瑕,但其所犯的错误已不再是无中生有的 " 幻觉 ",而更接近人类在判断或意图理解上的偏差。

这表明,人机协作的模式正在改变,人类所做的将不再是修正 AI 的低级错误,而是为其提供高阶的战略指引和方向。这或许是自 ChatGPT 发布以来,AI 领域发生的最大变革。

以下为 Ethan Mollick 测评文章全文:

三年,从 GPT-3 到 Gemini 3

从聊天机器人到智能体

Ethan Mollick

2025 年 11 月 19 日

我一直在测试谷歌新发布的 Gemini 3 模型。它非常出色。但与其罗列基准数字,不如让 AI 亲自演示这三年我们走了多远——我就是这样做的。

ChatGPT 发布至今已近三年。在它上线前几天,我在这份 Substack 上写了第一篇关于 OpenAI 更早期的 GPT-3 的文章。随后 ChatGPT 横空出世,我立刻又写了一篇:" 我通常对技术预测很谨慎,但这次它会比我们预期得更快、更剧烈地改变我们的世界。不再只是自动化重复、危险的工作,现在第一批被 AI 颠覆的,可能是更偏分析、创意、写作与沟通的岗位。"

今天看来,我说对了。

(插图:三年前我用 GPT-3.5 后的首篇文章截图)

我可以口头解释初代 ChatGPT 与今天谷歌发布的 Gemini 3 有多大差距,但没必要。我把上面那张截图扔给 Gemini 3,只写了一句话:

我:" 做点东西,让大伙儿看看 AI 这三年进步了多少。"

Gemini:" 当然可以。你这条推文来自 2022 年 11 月——现代 AI 热潮的前夜。当时最大的‘哇点’是 AI 能写一段通顺的文字,或者给‘糖果动力超光速飞船逃离水獭’这种傻题目写首小诗。

为了展示进步,我不仅用文字描述,而是直接给你做了一个可交互、可游玩的‘糖果动力超光速飞船模拟器’。

2022 年,AI 只能描述引擎;2025 年,AI 能把引擎写出来、把界面画出来,还让你亲自开飞船。"

它真的做了一个迷你游戏:我得靠糖果能量摆脱追杀的水獭,途中穿插小诗和各种搞笑更新。读这篇博客的人大概早知道 AI 能写代码,但更有趣的是——当你不再把 Gemini 3 当成 " 聊天框 ",而当成 " 别的东西 " 时,它还能干什么。

会写代码的工具,不只是 " 写代码的工具 "

伴随 Gemini 3,谷歌还发布了 Antigravity。程序员一看就懂:它跟 Claude Code、OpenAI Codex 类似,给你电脑权限,能在指导下自主写程序。

如果你不是程序员,可能会忽略它——我觉得这是错的。" 会写代码 " 不等于 " 当程序员 ",而是 " 能完成任何在电脑上才能完成的活儿 "。 于是,这些工具的本质被彻底改写。

Gemini 3 极擅长写代码,这一点即使你不自认 " 程序员 " 也与你息息相关。AI 界的一个底层视角是:你在电脑上做的任何事,归根到底都是代码;只要 AI 能写代码,它就能建仪表盘、扒网站、做 PPT、读文件…… 这让 " 会写代码的智能体 " 成了通用工具。Antigravity 把这一理念产品化:给我一个 " 收件箱 ",我把任务派给智能体,它们需要批准或帮助时会通知我。

(插图:四个智能体同时跑,一个在干活,一个等我回应)

我跟它们不用代码,用英语;它们用代码替我干活。Gemini 3 擅长做计划,知道该干什么、何时请示。比如我把历年 newsletter 的稿子全放在一个文件夹,然后吩咐:

" 给我做一个漂亮的网页,汇总我对 AI 的所有预测,再上网搜搜哪些说对了哪些说错了。"

它读完所有文件、跑代码、先递给我一份可编辑的方案——这是它第一次开口问我,理解之准确让我惊讶。我小改几处,放它去干。

随后它搜网页、建站、接管浏览器验效果,再把成品打包给我。我像对真人同事一样提修改意见,它继续迭代。

它并非完美无缺——智能体还没到那一步。我没发现幻觉,但确有地方需要我纠正,不过那些错误更像 " 人类同事会有的判断偏差或误解 ",而非传统 AI 的离谱幻觉。重要的是,我感觉自己能够掌控人工智能的决策,因为人工智能会定期检查并确认其工作,而且我的操作过程清晰可见。这种感觉更像是管理一位队友,而不是通过聊天界面与人工智能进行沟通。

博士级智力?

Antigravity 并非唯一惊喜。另一重震撼在于——它展现了真正的 " 判断力 "。

我常吐槽:AI benchmark 已经卷成一锅粥。Gemini 3 在大多数榜单上领先(也许还打不过 200 美元的 GPT-5 Pro,但等 Gemini 3 的 " 深度思考 " 版出来可能就翻盘)。行业爱用一句广告词:" 博士级智力 "。我决定真刀真枪测一下。

我把十年前众筹研究的一堆旧文件扔给它——文件名像 "project_final_seriously_this_time_done.xls",格式还是上古 STATA。命令只有一句:

" 自己摸懂数据结构,把 STATA 文件清理好,准备做新分析。"

它真的把损坏的数据恢复了,把复杂环境摸透了。

接着我给了它一个典型 " 博士二年级小论文 " 任务,不加任何提示:

" 很好,现在用这些数据写一篇原创论文。深入调研领域,把主题拔高到创业或战略理论的层面,做严谨统计,写成期刊格式。"

它自己选题、提假设、跑统计、出图表、排版成文——最难的 " 选题与可执行性平衡 " 它自己走钢丝搞定了。我仅含糊地说 " 再充实、再改进 ",最终拿到 14 页论文。

(插图:论文前两页)

更惊艳的是,它自创了一个指标:用 NLP 把项目描述与海量描述做数学比对,衡量 " 众筹创意独特性 "。代码自己写,结果自己验。

所以,这算 " 博士级 " 吗?

如果你指 " 能干顶尖高校里一个合格研究生的活 ",部分答案是 "yes"。但它也有研究生通病:统计方法有瑕疵、理论跳跃过大、证据链不够严谨…… 我们已越过 " 幻觉 " 阶段,进入更微妙、更 " 人类 " 的缺陷区。有趣的是,当我像带学生一样给开放建议(" 再多补众筹文献以确立方法 "),它提升显著——也许再多引导就能接近 " 博士 "。

Gemini 3 是什么?

它是一个极出色的 " 思考 + 执行 " 伙伴,全球数十亿人可随手调用;也是一面镜子,照出 AI 并未放缓、智能体崛起、人类需学会管理 " 聪明 AI" 等多重趋势。

三年前,我们为 " 机器能写水獭诗 " 而惊叹;不到 1000 天后,我在跟一个自建研究环境的智能体辩论统计方法。

聊天机器人时代正在让位于 " 数字同事 " 时代。

没错,Gemini 3 仍不完美,需要会指挥、会核查的 " 人类经理 "。但 " 人在回路 " 正从 " 人替 AI 擦屁股 " 演变为 " 人指导 AI 干活 " ——这也许是 ChatGPT 发布以来最大的范式迁移。

彩蛋:

我让 Gemini" 纯用代码给我做一张 Substack 封面图,先查尺寸 ",它先上网搜规格,再纯靠数学画图,一条龙搞定。

** obligatory 警告:**

让 AI 智能体获得电脑权限有风险——它可能不经询问就移动 / 删除文件,甚至泄露文档。等工具面向非程序员时会好很多;当下务必谨慎。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 谷歌 人工智能 聊天机器人 沃顿
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论