周浩能给千问带来什么？答案就在他为Gemini所做的工作之中

文 | 字母 AI

林俊旸深夜发文 " 告别 " 千问，在 AI 圈中引起轩然大波，也让 " 周浩 " 这个名字进入公众视野。

2026 年 1 月，周浩低调加入阿里，第一站不是通义实验室，而是先挂靠在夸克。

在夸克短暂过渡之后，周浩随即转入通义实验室，接替同日离职的后训练负责人郁博文，汇报线直接拉到阿里云 CTO、通义实验室负责人周靖人。

周浩本科毕业于中国科学技术大学，2019 年在威斯康星大学麦迪逊分校取得机器学习与计算机视觉方向的博士学位，随后在 Meta 做了一段 AI 基础研究，积累了大规模模型训练的工程经验。

真正让他成名的地方是 DeepMind。

自从加入 DeepMind 以后，周浩在那里一路升至高级主任研究科学家（Senior Staff Research Scientist），这是谷歌研究体系中极少数人能触及的级别。

同时周浩也成为了 Gemini 强化学习与自我改进（RL & Self-Improvement）团队的负责人。

从 Gemini 1.5 到现如今的 Gemini 3 Pro，周浩参与了谷歌旗舰大模型核心功能的研发工作。

那么周浩能为千问带来什么？

答案藏在他过去几年在 DeepMind 里做的事情里。

01 周浩有什么本领？

2023 年，在 Gemini 1.0 的技术报告中，周浩担任 "Gemini App Factuality Co-Lead"（Gemini APP 事实性联合负责人）这一职位，他的核心职责是保障 Gemini 面向 C 端用户的输出事实准确性，输出的信息准确、可靠，不会 " 一本正经地胡说八道 "。

说白了就是让模型从后训练到落地，整个流程里减少幻觉。

一个模型可以在学术 benchmark 上跑出漂亮的分数，但如果它在回答 " 今天天气怎么样 " 时编造数据，在法律问答时引用不存在的法条，那这个模型就是灾难。

传统的做法是事后检测。也就是让模型先生成答案，然后用另一个系统去给已经生成好的答案进行验证。

但这种方法成本高、延迟大，而且很难覆盖所有场景。

周浩和团队在 Gemini 上做的事实性工作，是从模型训练和强化学习的源头入手。

通过设计专门的奖励函数和训练策略，让模型在生成每一个 token 的时候，就内化了 " 事实准确性 " 这个约束。

这不是简单地让模型记住更多知识，而是让模型学会区分 " 我知道的事实 " 和 " 我不确定的推测 "，在不确定的时候主动降低置信度，甚至拒绝回答，而不是硬着头皮瞎编。

这套事实性保障体系的效果，体现在了 Gemini 的实际表现上。

技术报告中指出，Gemini Ultra 在 MMLU（大规模多任务语言理解）基准测试中取得了 90.04% 的准确率，成为首个超越人类专家水平（89.8%）的 AI 模型。

MMLU 涵盖数学、物理、历史、法律、医学、伦理等 57 个学科领域，是衡量模型知识广度和准确性的权威基准。

更重要的是，技术报告特别强调 Gemini 模型在事实性相关任务上展现出 "exceptionally strong performance on factuality"（在事实性方面表现异常强劲），这直接验证了周浩团队在应用层面事实性保障工作的成效。

如果说在 Gemini 1.0 时期，周浩解决的是 " 怎么让 AI 认识到错误 "，那么到了 2024 年，周浩作为核心贡献者参与的 VideoPrism，它解决的就是 " 怎么让 AI 看懂视频 "。

这篇论文本质上是构建了一个视频基础编码器，能够处理从科学视频到监控录像等各类视频内容。

以前的 AI" 看视频 "，其实是把视频拆成一帧一帧的图片分别看，就像把一部电影剪成几千张截图然后逐张分析。它能认出画面里有什么，但根本不懂 " 前后发生了什么 "。

VideoPrism 则是让 AI 理解视频里的时间流动。比如看一段做菜视频，它不仅知道 " 这是一个厨房、有一个人、有一口锅 "，还能理解 " 这个人先切菜、然后热油、然后下锅炒 " 这个动作序列。

VideoPrism 的核心思路是将大规模视频 - 文本对数据与纯视频数据结合，通过两阶段训练，让模型同时学会语义理解和视觉细节。

第一阶段用对比学习让模型学会匹配视频和文本描述，第二阶段用掩码自编码让模型学会预测视频中被遮挡的部分。

这个设计让 VideoPrism 能够从两种互补的信号中学习。文本描述提供语义信息，视频内容提供视觉动态信息。

在 33 个视频理解基准测试中，VideoPrism 在 31 个上达到了最优性能，而且用的是同一个冻结模型，几乎不需要针对不同任务做适配。

这个工作被直接产品化进入谷歌的多模态体系，是 Gemini 视频理解能力的技术基石之一。

周浩同样也是 Gemini 3.0 的关键贡献者（Key Contributor）。在这个模型上，他具体负责的是多步骤强化学习（Multi-step RL），翻译成人话，就是让模型在解决复杂问题时，能够进行多轮思考、规划、执行、反思的链式推理能力。

Gemini DeepThink（深度思考模式）和 DeepResearch（深度研究）等功能就是因此而来的。

普通的 AI 回答问题，是 " 想一步、说一步 "。你问它一个复杂问题，它从头到尾生成一遍答案就完了，中途不会停下来质疑自己。

周浩做的事，是让 AI 学会 " 一口气想好几步 "。

AI 会先拆解问题、制定计划，然后一步步执行，每走一步都回头检查 " 这步走对了吗？下一步该怎么走？"。

这样一来，Gemini 的 DeepResearch 功能就可以帮你自动搜索几十个网页，再综合搜索结果，给你写出一份有逻辑的研究报告。而不是像其他大模型一样，把搜索结果一口气 " 喷 " 出来，因为它真的是在一步步地思考和规划。

周浩的研究路线启示有一条清晰的主线。

从最一开始让 AI 自己明白什么是错的，再让 AI 认识到时间序列这个抽象概念，最后通过多步骤强化学习让 AI 学会规划和反思。

随着时间的推移，AI 能理解的事物越来越复杂，也越来越能解决真实的用户需求。

有意思的是，这个发展轨迹，恰好就是千问接下来要走的路。

02 千问刚刚完成一次技术跃迁

在我看来，周浩的研究方向，与 Qwen 3.5 已经走到的技术节点，形成了高度精准的 " 卡槽对接 "。

Qwen 3.5 在 2026 年 2 月发布，这是千问系列的最新旗舰版本。它采用了混合架构，结合了 Gated DeltaNet 和稀疏混合专家（MoE）两种技术。

旗舰模型 Qwen3.5-397B-A17B 总参数量为 3970 亿，但每次推理只激活 170 亿参数，这样的设计能够让它在保持高性能的同时，成本降低了 60%，吞吐量提升了 8 倍。

虽说 Qwen 3.5 在架构和预训练上已经做到了世界级水准，但它的后训练阶段却不够出色。尤其是如何让模型真正学会推理、反思、自我纠错，这正是千问的短板。

早在 2025 年 5 月的 Qwen 3 技术报告中，Qwen 团队就已经明确表示，其后训练阶段的强化学习 " 聚焦于数学和编程任务 "，并在展望部分坦承 " 计划增加强化学习算力，特别强调基于环境反馈的 agent 强化学习系统 "。

这个短板在 benchmark 上看得更清楚。

在多个最能体现深度推理和复杂任务能力的测试中，Qwen 3.5-397B 始终落后于同期发布的 Gemini 3.1 Pro。

比如在 GPQA Diamond（科学知识推理）上，Gemini 3.1 Pro 得分是 94.3%，Qwen 3.5 只有 88.4%。在 SWE-bench Verified（代码任务）上，Gemini 3.1 Pro 达到 80.6%，Qwen 3.5 则是 76.4%。在 MMLU 系列测试中，Gemini 3.1 Pro 的多语言版本得分 92.6%，Qwen 3.5 的 MMLU-Pro 是 87.8%。

两者的差距，就集中在需要多步规划、工具调用与自我纠错的复杂任务上。

周浩的研究成果刚好能补上了这个缺口。它不需要额外的人工标注数据，不需要给模型灌输更多知识，就能让模型意识到错误在哪。

而且周浩主导的多步骤强化学习，也弥补了 Qwen 在多步规划上的不足。

另外，Qwen 3.5 已经具备了 agent 的基础能力。

2026 年 1 月，千问 App 全面接入淘宝、支付宝、高德地图、飞猪，实现了 " 一句话点外卖、订机票、叫出租 "。用户可以说 " 帮我订一张明天去北京的机票，预算 2000 以内，带行李额 "，系统会自动比价、推荐航班、跳转支付、完成出票。

但这些功能还比较初级，更像是把多个 API 串起来调用，而不是真正的多步骤推理。

如果航班取消了，AI 能不能自己发现问题并切换方案？如果用户说 " 帮我安排一个周末去杭州的行程 ", AI 能不能自己拆解成订票、订酒店、规划路线、推荐餐厅这一系列子任务，然后一步步执行？这些都需要更强的自我纠错和多步骤规划能力。

此前在林俊旸的主导下，Qwen 3.5 还实现了原生多模态。这是一种从预训练阶段开始，就把文本、图像、视频 token 混在一起进行训练的模式。

它能处理最高 1344x1344 分辨率的图片，以及 60 秒的视频片段。

这套架构和周浩在 VideoPrism 上做的事情高度一致，他们都是通过早期融合让模型同时学会语义理解和视觉细节。周浩对这套方法论的深度理解，有望帮助千问在视频时序推理、动作理解等维度上实现进一步突破。

林俊旸时代，千问团队的核心竞争力不只是技术，更是组织方式。预训练、后训练、多模态、基础设施全部在一个团队内部闭环，沟通链路极短，一个技术判断可以当天落地实验。

但这种 " 一个人的大脑 " 式的管理方式，在团队规模扩大到几百人之后，开始出现瓶颈。

阿里启动了官方架构调整，将原本闭环的团队拆分为预训练、后训练、文本、多模态等多个平行的水平分工模块，直接否定了原本的垂直整合模式。

团队的考核逻辑也因此发生转变，核心 KPI 从原本的模型性能、榜单排名、开源影响力，转向了模型对集团业务的提效成果、千问 App 的用户增长、商业化 ROI。

周浩要接的，就是这样一个摊子。

技术上已经走到世界前列，但有明显短板；组织上从 " 研究优先 " 变成了 " 指标驱动 "；战略上从开源模型转向 C 端超级入口，从技术品牌转向生活助手。

03 千问的未来是？

诚然，千问团队长期处于 " 算力饥渴 " 状态。吴泳铭也在内部会议上公开道歉，说 " 没有更早知道资源的问题 "。

但这只是内部矛盾的一面，真正决定这次人事变动的，是它发生的时间节点。

如今的千问正处于战略大调整，因此，底层模型的性能至关重要。

2025 年 11 月，阿里将 " 通义 "App 更名为 " 千问 "，吴泳铭亲自拍板，并在财报分析师电话会上明确表态：" 阿里巴巴必须要有一个 AI 原生的 C 端超级入口。"

3 月 2 日，就在林俊旸发朋友圈告别的前一天，千问 AI 眼镜在 MWC 巴塞罗那全球首秀，并于当天开启全球预约。

阿里内部人士透露，除 AI 眼镜之外，千问还会在年内陆续发布 AI 指环、AI 耳机等产品，全部面向全球市场发售。

" 帮你办事 " 和 " 陪你聊天 "，是完全不同的两件事，对模型来说也是如此。

帮用户订一张机票，听起来简单，实际上需要模型完成一系列连贯动作：理解用户意图→调用高德 / 飞猪 API →处理返回结果→识别异常（比如航班取消）→主动提出备选方案→等待用户确认→完成支付。

任何一个环节出错，用户体验就会崩塌。

这不是一个聊天机器人能做到的，所以千问 App 会从 " 对话框产品 " 变成 " 任务完成产品 "。

现在打开千问 App，核心交互还是一个聊天框。但有了周浩的多步骤强化学习加持之后，可以预期千问会逐步把 " 办事 " 能力做成独立的产品模块。

不是你问它 " 帮我订机票 "，而是它主动在你说 " 明天要去北京开会 " 的时候，自动识别出这是一个需要订票、叫车、提醒的复合任务，并一步步帮你完成，中途遇到航班取消还能自己切换方案。

这个产品形态，更接近一个 "AI 秘书 "。

阿里的优势就在于产业链完整，可以无缝接入各种阿里系生活、购物产品，这也是 Gemini 和 ChatGPT 目前都还没有做到的。

同时我还认为，千问眼镜会成为一种具有情境感知能力的 AI 助手。

目前市面上大多数 AI 眼镜的核心能力是 " 你问我答 "，本质上是把手机语音助手搬到了脸上。

千问眼镜如果能把 VideoPrism 的视频时序理解能力真正落地，产品体验会有质的不同。

它不需要你开口问，就能理解你正在做什么、下一步可能需要什么。你走进超市，它知道你在看货架。你在餐厅犹豫，它知道你在对比菜单。

这种 " 主动感知、预判需求 " 的体验，才是 AI 眼镜相对于手机真正的差异化价值。

林俊旸把千问做成了一个让全球开发者尊敬的技术品牌，那么周浩的任务，就是让千问真正靠得住，不只是聪明，还要稳、准、能把事办完。

宙世代

一起剪

相关标签