产业互联网第一媒体。产业家
从多模态检索能力到深度多模态浏览器智能体再到检索底层能力的强化,从并行架构到 MCP 多智能体协作机制,在昆仑万维一系列模型动作和更新的天工超级智能体背后能看到的也恰是一个在被悄然推进的 AI 演进路径:智能体正在从 AI 办公生产力工具到真正的超级 AI 助手,独立检索,独立理解,独立表达。
2025 年,超级 Agent 的 iPhone 时刻,正在加速来临。
作者 | 皮爷
出品 | 产业家
对于张小龙,《腾讯传》里有句话是这样描述的,即在腾讯内部,张小龙的名气主要来源于两方面,一是公司某次运动会网球赛的冠军,二是全广州最大的 KENT 香烟消费者之一。
而这个描述伴随着 2011 年微信 1.0 版本的发布似乎开始不太准确——微信成了张小龙的唯一代名词。根据腾讯刚刚发布的第二季度财报数据显示,迄今为止微信月活超 14 亿,约等于中国总人口。
微信做对了什么?在过去的多年时间里,关于这个问题一直是产品经理们关注的焦点,从 PC 互联网到移动互联网再到 AI,微信的设计和发展路径都可谓是一众产品的绝对对标。
一个相对共识的观点是,微信是整个中国移动互联网时代的能力集大成者,从语音技术到社交通信的技术底层,从 UI 设计到需求满足的产品表层和内部信息流转流程,每个完备的单点组件串联到一起,构成着这款超级 APP 应用的从量变到质变的全民接纳和爆发。
历史总是惊人的相似。如今,这样的量变信号也正悄然出现 Agent 应用热潮里。
就在刚刚,昆仑万维发布了 Deep Research Agent,首次把多模态检索理解和跨模态生成能力完整整合到深度研究工作里,以 "Agent 赋能 Agent",近一步强化天工超级智能体的能力。
被放到台前的不仅这些。在过去的一周里,昆仑万维已经成为国内 AI 市场的绝对焦点——从 8 月 11 日至 8 月 15 日,其每天都在发布一款新模型,从视频生成模型、世界模型,到统一多模态模型、智能体模型,再到 AI 音乐创作模型。
这些模型在强化 AI 在各自领域场景表达的同时,也更在推动着 Agent infra 一个个组件的日趋成熟。
2025 年的如今,未来终极形态的 Agent 产品到底是怎样?没人可以给出定义,但在一个个产品动作和模型信号背后,能清晰看到的是基座能力的量变正在愈发迅速。
如果说之前的 Agent 平台更多的标签是 AI 基础搜索的单点,那么如今在这个单点之上,对新需求拆解和满足能力背后的底层技术体系也恰在成为更新的产品衡量标准,如多模态检索生成,再如深度信息检索等等。
看见新需求,解决真问题。Agent,正式进入比拼下半场。
一
" 真 " 多模态、" 强 " 深度搜索,
再进一步
在厘清 Agent 产品的更新标准之前,先来看一看昆仑万维的最新 Agent 交卷: Deep Research Agent v2,从更大的视角来看,这个 "To Agent 的 Agent" 更等同于为天工超级智能体叠加了一层更强的技术基底。
首先看最基础的检索能力,如今在 Manus 之后,一个更新的需求恰是多模态检索,换言之则是人们期待通过 Agent 助手不单纯获得文字层面的答案,而更多是来自图像、文字的复合信息回答。
关于多模态,如今市面上大部分 Agent 产品能达到的能力更多是在生成侧,而在检索侧也更多仅仅是基于最终的文字进行图表转换呈现,在最前端的深度检索方向很少有 Agent 产品很做到,这也恰是 Skywork Deep Research Agent v2 的最新亮点。
检索 "AI 大模型对教育行业影响 " 的相关问题时,Skywork Deep Research Agent v2 会自动检索对应的图片信息,并在理解图片后将图片内容和文字内容进行综合输出
即在问题的检索过程中,基于 Skywork Deep Research Agent v2 的加持,天工超级智能体将不再局限于文字,而突破性地把图像信息也作为核心的信息检索要素之一,通过对图像、文字的综合理解,最终输出答案。
检索房价相关问题时,会自动把对应网站的 " 城市房屋价格曲线 " 作为信息检索源,将其与文字内容结合进行思考输出;
检索 "K12 在线教育产品 " 的相关问题时,会自动检索市面上对应 k12 产品的用户画像图片,理解图片内容的同时,更结合文字进行图文并貌的输出;
如果说多模态检索提升的是天工超级智能体在对象要素层面的检索能力,那么深度信息检索则提升的是其在检索体系上的提升,拆解来看其中有两大亮点:一是革命性推出深度多模态浏览器智能体,二是通过制定标准的方式,近一步强化深度信息检索底层能力。
先来看深度多模态浏览器智能体,从整个 AI 市场来看,AI 浏览器是炙手可热的 AI 落地领域,其以用户在移动互联网时代存留的搜索入口习惯为切入点,基于浏览器入口的形态进行对应 AI 技术的验证和落地,不仅在国内,在国外也更有包括 Perplexity、 OpenAI 等纷纷下场,但就当下而言,AI 浏览器可谓是问题频出。
比如强耗电和反应慢,不少人对 AI 浏览器的反应是慢,如果细看对应的检索思考过程,则是不难看到不少浏览器 Agent 容易陷入反复验证、反复 " 撞墙 " 的过程,由此对应的是 " 三个任务运算一天 " 的戏谈。
问题还不仅这些。几个其它问题还有,如 AI 浏览器很难绕过用户的文档、网页权限,一旦触碰到对应的限制则会自动停止思考推理;再如耗电,如最近热议的某些 AI 浏览器运行时会给用户终端带来极大的硬件损耗等等,以及最核心的能力层面,即对大部分 AI 浏览器而言,其更多仍然没有逃脱浏览器的固有限制,仅是围绕之前的浏览器页面进行检索,增量极为有限。
这也是 Skywork Deep Research Agent v2 特殊设计的意义所在。即基于其中的深度多模态浏览器智能体,用户不仅可以获得互联网上的相关信息,更可以获得跨平台的全体系内容呈现,如推特、instagram、知乎、小红书等,从内容本身到图像,从弹幕到底层评论区等等,一些客观和主观的要素都会被识别分析,共同成为天工超级智能体回答的检索思考依据。
检索 " 香港旅游攻略 ",会自动基于小红书进行信息检索,结合小红书内容贴和评论区反馈等信息,综合给出方案;
在对比 Grok4 与 GPT5 时,会自动前往 Twitter、小红书等平台检索相关信息,并整理汇总用户的真实评价与反馈;
查询相关球星信息时,智能体会自动跨平台抓取并整理球星最近推文的热度指标与代表性评论,快速呈现舆论全貌;
此外,基于深度多模态浏览器智能体的并行搜索、多动作规划机制,可以大大提升检索生成效率,从而让任务可以迅速执行、迅速反馈;在涉及到需要用户接入的环节(如验证码等),智能体会自动提醒用户进行接管操作。
在深度多模态浏览器智能体之外,Skywork Deep Research Agent v2 还进一步夯实了天工超级智能体的检索基础能力,通过一系列 " 标准 " 路径的设定,让其在进行问题回答、检索以及生成答案时,必须遵循对应的思维链逻辑和生成更为优质的答案。
比如制定了严格的搜索问题构造标准,明确定义了高质量搜索问题及其答案应具备的五大核心属性:多样性(覆盖广泛的主题和难度层次)、正确性(答案准确无误)、唯一性(答案具有确定性)、可验证性(答案可通过可靠来源验证)以及挑战性(需要深度推理能力),这套标准也更同样被用在智能体生成的答案验证中。
再比如端到端强化学习、并行推理等等方面,Skywork Deep Research Agent v2 也都通过一系列特殊设计保障智能体能够在输出最终结果之前进行多轮验证和优化思考,最终快速高效准确地输出答案。
客观来看,Skywork Deep Research Agent v2 为天工超级智能体加持的三个突破点也恰对应着当下人们对于 Agent 产品的更新要求:即对问题的更多维度回答和理解、更快的问题解决速度、更跨平台全方位的内容呈现以及更符合人类思维链的真实逻辑文字。
也可以说,这些也恰是 Skywork Deep Research Agent v2 多模态检索能力、深度多模态浏览器智能体、深度信息搜索能力的产品核心设计出发点,即把Agent infra 中检索推理思考回答的每个节点分别进行完善放大,进而为用户提供更为契合的 AI 生产力加持。
二
"Agent 赋能 Agent":
Agent 集团军时代到来
在 Skywork Deep Research Agent v2 破圈之中,一个更大视角的思考是,如今的 Agent 到底走到哪了?
过去的两年时间里,Agent 已然成为人们对于 AI 大模型落地的共识,即基于 Agent 的形态,不论是在 TO C 的场景,还是在产业 TO B 的具体环节,AI 技术都可以得到更大程度的价值释放和表达。
这其中也更有一系列如 Manus、Betteryeah、Dify 等 TO C 或 TO B 的智能体产品出现。但共识之外,真实的答案却并不算完美。
即除了前文所说的 AI 浏览器的问题之外,在即使如 Manus 等智能体产品上,一系列的幻觉、数据安全、反映迟缓以及 " 低价值 " 答案等等都在不断让人怀疑 Agent 的价值所在—— Agent 产品到底应该如何进化,才能成为真正的生产力工具?
从某种程度来说,Skywork Deep Research Agent v2 在提供一个答案。即不论是 Skywork Deep Research Agent v2 所呈现出的多模态检索,还是深度多模态浏览器智能体以及底层检索基础能力的强化,这些在特定节点可以取得更优秀得分的 "AI 组件 " 如今都已经被嵌入到天工超级智能体 APP 中,进一步迭代天工超级智能体的 infra 底层逻辑,让其可以一步步进化。
具体来看,这些更优秀的得分源自对对应节点技术的优化。
比如在升级的多模态检索能力中,其采取的多模态爬取和长距离多模态信息收集,前者内置了 " 视觉噪声剪枝(Visual Noise Pruning)",通俗来说就是识别筛选所有抓取元素中的有价值部分,将有价值的信息推进后续处理,提高任务的推进速度,节省计算资源。
后者则是 Skywork Deep Research Agent v2 仿照资深研究员的阅读节奏,通过 " 先筛选、后精读 " 的流程,模型在每一步推理时,不仅审视当前动作的结果,还会综合前面几十步数万字的上下文,这种模式可以显著降低计算开销,同时确保关键视觉证据得到充分利用。
再比如在深度多模态浏览器智能体,其之所以能够做到跨平台和全要素识别,也恰是基于昆仑万维 AI 团队对浏览器文档对象模型(DOM)进行的深度优化,其结合浏览器原生特性,能够更精准、高效地提取网页中的核心信息。
此外,团队还针对国内外主流社交平台进行了大量的 Action(动作)优化,确保在不同社交网络平台的兼容性与稳定性,提升自动化浏览的成功率和效率,规避传统 AI 浏览器 " 撞墙 " 的问题。
同时也更有检索基础能力的突破,其也更是基于固有的 AI 检索回答推进流程,在每个节点都进行了更为科学合理的强化,同时把市面上最流行的多智能体协作机制真正经由 Skywork Deep Research Agent v2 嵌入到天工超级智能体产品中,进一步强化后者的 Agent infra 底层建设,在原来的基础上进一步提高其智能化上限。
这些从模型和产品技术出发的真实突破也恰构成着 Skywork Deep Research Agent v2 展现出来的对应节点的 Agent 能力,而这些能力也更将无缝集成进天工超级智能体的固有流程环节中,为用户提供前端虽无感知但更智能化的回答。
这个结果背后也更折射出一个新的事实,即Agent 不再是单纯基于某项技术或节点的产品,其更在成为一个集团军组团作战的超级 APP。
即当用户在进行某个对应的检索和命令生成时,一个在天工超级智能体内部运转的流程恰是把从问题提出到解析,到多模态检索,到答案生成、验证中间的每个步骤都让专门的智能体产品来完成,通过对每个环节的专项强化设计让每个节点都高效、智能、可控,进而传导输出一个最大程度契合用户新需求的答案。
或者也可以说,在昆仑万维的这张答卷背后,能清晰感受到,为了实现最前端的真正智能回答和价值回应,Agent 产品正在逐渐被原子化、分子化甚至模块化,这些原子化的组件通过集团军作战的方式,最终成为决定 Agent 助手能否成为真正生产力工具的关键。
三
2025 年,
等待超级 Agent 的 iPhone 时刻
在知乎上,有人曾经问过这样一个问题,即移动互联网开始的真正起点标志性事件是什么?其中的高赞回答是 iPhone 的发布。即尽管是后续伴随着 App store 等体系的成熟,iPhone 手机是在 4.0 乃至 5.0 版本后才真正风靡世界,但当乔布斯拿出无键盘手机的那一刻,也更标志着移动互联网时代的来临。
实际上,在 Skywork Deep Research Agent v2,也或者可以说在 Skywork Deep Research Agent v2 加持后的天工超级智能体背后,也恰能感受到这种时代起点的变迁气息。
即如果说在 2024 年,人们对于 Agent 的想象力还仅停留在微信、支付宝等超级 app 的身上,即其可以完成近乎一切指令可以达到的任务,那么如今这些想象则是正在逐步区别化、具像化、实际化。
在如今的天工超级智能体 APP 上,一系列从工作到生活,再到信息猎奇等更为多维的任务都可以被加速推进,Skywork 将其模型能力与工具能力有机融合,构建协同多智能体框架。该系统不仅能够将多个 Agent 组织成高效协作团队,还可在线实时利用 Agent 的代码能力动态创建和管理 MCP 工具,从而显著提升任务处理能力与环境适应性。
任务在天工超级智能体中整体运转的流程体系:MCP Manager Agent
这也恰是不同以往任何产品运行逻辑的 AI 时代超级 app 的雏形,客观来看,尽管当下以天工超级智能体 APP 为代表的产品仍然不能完成全部任务,不能代表终极形态,但一个清晰的信号是,在越来越聪明的它背后,这个超级 app 的底层基座正在愈发厚重,运行机制也更愈发清晰合理。
几个最新的成绩是,在权威的搜索评测榜单 BrowseComp 上,Skywork Deep Research 性能已超越大多数同类产品,正确率达到 27.8%,而一旦开启自主研发的 " 并行思考 "(Parallel Thinking)模式,正确率更是跃升至 38.7%,刷新了行业 SOTA 纪录。
更值得一提的是,在并行思考模式下,Skywork Deep Research 的正确率会随着思考时间的增加而持续攀升。
此外,在 GAIA 测试集中,Skywork Deep Research Agent V2 也更斩获 SOTA 成绩,后者是一个面向通用智能体(Agent)的综合评测基准,专为在真实环境中衡量 AI 智能体的多模态推理、网页浏览、工具使用、长期规划、环境交互与任务执行等关键能力而设计。同时,其也更被视为衡量 AI 是否具备通用智能(AGI)的重要里程碑。
从多模态检索能力到深度多模态浏览器智能体再到检索底层能力的强化,从并行架构到 MCP 多智能体协作机制,在昆仑万维一系列模型动作和更新的天工超级智能体背后能看到的也恰是一个在被悄然推进的 AI 演进路径:智能体正在从 AI 办公生产力工具到真正的超级 AI 助手,独立检索,独立理解,独立表达。
2025 年,超级 Agent 的 iPhone 时刻,正在加速来临。期待昆仑万维在本周带来更多的 AGI 惊喜。
最新视频号内容推荐
产业 AI 大模型
产业数字化
产业 SaaS
产业供应链
产业硬科技
© 往期回顾
产业家网全新上线
© THE END
/
欢迎爆料
登录后才可以发布评论哦
打开小程序可以发布评论哦