光子星球 8小时前
豆包、千问与Kimi,站在AI Agent的岔路口
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

" 真正决定企业未来的转折点,正在发生,不是远方的 AGI,而是当下的智能体。"

这是谷歌在开年给出的最强预测,2026 年将是 AI Agent 的爆发之年。

一个重要的趋势是,AI 正在从回答问题,走向理解目标、制定计划,并跨系统采取行动。这意味着,未来 Agent 将不仅仅是对话型 AI,而是能够完成复杂任务和交付的生产力工具。

在中国,AI Agent 发展大致可以分为两个阶段,前一阶段重对话、搜索,各类 AI 助手类应用层出不穷,并未分得出高下。从用户量上看,几个熟面孔包括巨头公司的代表有抖音豆包、腾讯元宝和阿里千问,创业公司的代表有 DeepSeek 和 Kimi 等。这一阶段的本质是流量入口和用户习惯的争夺。

时间来到 2025 年末和今年初,进入第二阶段后,AI Agent 发展呈现出明显分化。各家依据自身的战略和资源,瞄定了不同价值方向。

豆包深化在语音对话、图片与视频生成领域的娱乐化应用;千问依托阿里系生态优势,聚焦生活服务,扮演 " 行政管家 " 角色;Kimi 则将重心放在生产力方向,通过自研 Agent 模型推动 AI 与工作流的深度融合。

回到谷歌开头的论断,从豆包、千问和 Kimi 身上已经初见端倪。差异化竞争的背后,是逐渐达成的共识,AI Agent 的价值,最终必须由解决实际问题的能力来定义。

输入决定交付

探究是什么原因造成了豆包、千问与 Kimi 们的不同选择,或许要回到一个简单的原理,即输入决定输出的质量。

这一法则,在 AI Agent 时代被赋予了新的涵义,Agent 所依赖的输出,已经不仅仅是用户的简单指令,更包括了其对任务上下文的深度理解、对可用工具的精确调用以及对多步骤流程的可靠规划。

从输入与输出的角度看,豆包的输入场景根植于字节的娱乐与内容生态。它的输入是开放、多模态的创意灵感。用户可以提供一段文字、一张图片、一句语音,甚至只是一个模糊的想法。这种输入的不确定性和娱乐导向,要求模型具备强大的联想能力和内容生成能力。

豆包更倾向于将任务边界限定在创意内容生成领域,不追求解决一个确切的问题,而是激发创意的过程,其核心指标是内容的新颖性、趣味性和传播度。

交付的结果往往是一个短视频脚本、一张趣味图片或一段配音,价值在于激发用户的二次创作和社交分享。在抖音火起来的 " 模拟站姐生图 "" 我想要占据你丝滑转场 " 等均出自于豆包,这相当于完成了从 AI 生成到用户交互的接力。

千问打造的是以服务调度为中心的输入、输出模式。千问背靠阿里覆盖衣食住行的成熟生态,输入的是结构化的生活服务需求。用户通常提出 " 订一张飞往上海的机票 " 或 " 买一杯奶茶 " 这类明确的指令。在输入中天然包含了时间、地点、商品、服务等因素。

千问的输入带有明显的指向性,Agent 任务边界被划定在阿里生态可触及的服务当中。它的核心是将自然语言指令,转化为准确的 API 调用,衡量成功的指标是服务的完成率、效率和用户体验度。

所想即所得,千问最终交付的是已完成的服务结果,例如一张出票的订单、一份外卖、一条行程规划。千问将阿里系的流量聚到一处,其价值在于替代传统的 APP 交互,成为服务生态的统一智能入口,未来所能触及的边界,取决于连接生态的深度和与外界的互动。

Kimi 的方向代表了创业公司的一种取舍,不做生活娱乐、不做多模态生成。Agent 更专注于深入研究、数据分析、PPT、网站开发等偏生产力与复杂任务的功能,这些往往需要长程规划、复杂工具调用,具备高经济价值潜力。

按照上面的逻辑,Kimi Agent 输入是复杂的专业工作流。用户多数提交数十万字的行业文档、一个多步骤的项目需求或一套需要分析的数据集。该类型的输入具有超长上下文、高信息密度和强逻辑性的特点。

当 Kimi 将任务边界拓展至,需要深度规划、多工具调用和长链条推理的工作流时,其衡量的成功标准就变成了任务的完整交付、专业度与效率的提升。结果是,Kimi 交付的是直接可用的工作成果,如一份结构完整的行业报告、一套数据分析图表等。

和 OpenAI 的 Deep Research 思路类似,核心价值在于能够直接替代部分重复性、低创造性的专业劳动。

Agent 的生产力向

不久前,豆包因为发行搭载 AI 助手版的手机引发热议,千问也在进一步打通淘系生态后刷屏。因此,这里我们想更多聊一下创业公司代表的 Kimi。

当昔日并称为 "AI 六小虎 " 的智谱、MimiMax 相继在港股上市后,外界把疑问抛到了 Kimi 面前,就差问一句 "and you"?

在 Kimi 创始人杨植麟所发布的内部信中,他回应称,已完成约合 35 亿元的 C 轮融资,当前现金持有量超过 100 亿元,短期不着急上市,K3 模型进一步 Scaling,产品和商业化上聚焦 Agent。

回顾去年一年,在 Kimi 年初转向基础模型和 Agent 研究后,低调的同时也收获了更多成果。

2025 年 Kimi 以 "Token 效率(Token Efficiency)+ 长上下文(Long Context)" 为核心技术路径,打造具备主动规划与复杂任务执行能力的 Agent,并通过算法与架构创新突破现有智能上限。

Token Efficiency 和 Long Context 是 Kimi 两个关键技术路线方向。为了提升训练效率,Kimi 首次在超大规模模型的预训练中验证了二阶优化器 Muon 的价值,相比行业已经用了十多年的传统 Adam 优化器实现约 2 倍的 Token 效率提升,相当于用同等资源训练出更高智能水平的模型。

行业专家称," 现在还能在 optimizer 这样 fundamental 的领域,有这么大的进展,真是让人吃惊 "。作为模型架构层 2025 年最大的进展之一,Muon 优化器后续已经被包括智谱 GLM 和 DeepSeekEngram 在内的中国开源模型陆续采用,充分展现了中国开源生态的力量。

拓展上下文能力方面,Kimi 提出基于线性注意力改进的 "KimiLinear" 架构。首次在长上下文任务上性能超越全注意力 Transformer,并在百万级上下文长度下实现 6 – 10 倍的端到端速度提升,同时保持更强的记忆与表达能力。

杨植麟提到,Kimi 的 K2 模型是 " 中国第一个 Agent 模型 "。

通过 K2 Thinking 的升级,Kimi 能够完成复杂的工具调用并帮助解决高难度问题。Kimi K2 在实战中可以执行两百多个步骤的复杂任务,已经能够帮助用户完成一系列高难度工作,展现出与全球头部 Agent 模型竞争的能力。

Kimi 的深度研究功能更适合专业用户使用,不需要有前情提要,直接列出研究要求和可视化需求即可。Kimi 能够快速 get 到用户想要的东西,并进一步地确认、明晰要点,尽管这有一点晦涩。紧接着 Kimi 会自行调取浏览器工具,边搜索边分析、确认,待结束后生成一份详细的研究报告和排版好的可视化网页。

基于深度研究、PPT 和通用 Agent 模式(OK Computer)中的数据分析等能力,Kimi 开启了 Agent 能力的商业化,以订阅制为主,不同等级的会员可以使用不同次数的 Agent 能力。据 Kimi 全员信称,全球付费用户数月增速 170%,这在国内普遍免费的大背景下,迈出了艰难的第一步。

在刚刚知名风投机构 a16z 联合创始人 Marc Andreessen 开年演讲中,特别提到来自中国的 Kimi 模型是领先的开源模型之一。从基准测试来看,已基本复现了 GPT-5 的推理能力,除了全球范围内 " 超新星 " 的 DeepSeek 外,Qwen、字节、Kimi 等也具有强大的竞争力。这里面,Kimi 是唯一一家创业公司。

智能的价值

从豆包到 Kimi,三位玩家 AI Agent 路径的选择,不仅仅是产品功能的差异,更是对什么是 Agent 核心价值,这一问题的回答。

不同的理解,决定了他们未来的竞争维度。

豆包定义了如何用 Agent 处理非结构化创意输入,交付情绪与互动价值。倒推对模型的要求,需要具备强大的多模态生成与风格模仿能力。生态决定了护城河在哪里,豆包生态是内容创作与分发的流量网络,其壁垒在于能否持续产出爆款内容并激发 UGC。

千问定义了如何用 Agent 理解结构化商业意图,交付交易与效率价值,这要求其模型得具备极高的意图识别准确率与 API 调用可靠性。千问依赖于阿里的商业操作系统,其壁垒在于对支付、物流、本地生活等服务的无缝整合深度。

Kimi Agent 正试图定义如何用 Agent 驾驭复杂专业任务,交付生产力与解决方案价值。这需要模型拥有深度的逻辑推理、任务规划与长程记忆能力。Kimi 通过构建专业场景下 " 模型 + 工具 + 工作流 " 标准,正在加强对于垂直行业复杂需求的理解与满足能力,吸引的是付费意愿强的专业用户和组织。

但归结到一点,豆包、千问、Kimi 以及更多的公司,都在定义和量化不同形态的智能价值,并将其产品化。

新的阶段,AI Agent 让智能的价值,进一步得到放大。

第一步是价值的 Token 化,各家将模糊的智能能力拆解为可标准计量的最小单元。这如同曾经为电力配置了千瓦时的单位,使智能的消耗和计价成为了可能,为商业化奠定了基础。

接下来是价值的流通化,当智能的价值被量化后,便能在生态中自由组合与流通,Agent 就成为了智能价值的交易接口。典型如千问,流通的是交易意图和服务,Token 的价值在电商、本地生活等多个场景中流转倍增。

最后是价值重组,也是谷歌提到的从工具层到工作与组织层的深化。

如果高性价比的智能也能像水电般随取随用,企业的底层逻辑有可能被改写。公司无需招聘专家团队,只需通过接入专业垂类 Agent,就能获得该领域的顶级能力,从而突破原有的能力壁垒。创新也许不仅限于内部生发,也可来自于对外部智能服务的创造性组合。

正如 a16z 联合创始人所言,我们正目睹一种 " 超通缩 " 的智能单位成本,与一种 " 超通胀 " 的智能应用需求历史性地相遇。

AI Agent,恰好是创造智能化价值,同时影响价值流向的关键。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai kimi 谷歌 阿里 抖音
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论