钛媒体 13小时前
年终盘点:谁会成为中国的"Nano Banana"?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 有界 UnKnown,作者丨山茶,编辑|钱江

回顾 2025年,AI行业最重要的变化不是模型,而是Agent真正进入工作流。

11月,Nano Banana 一经发布就在创作工具赛道撕出一道缺口。它不是简单地帮人做设计,而是重构了设计师的工作方式,让 AI 第一次具备可用的、规模化的产出能力。

可以说,Nano Banana 将所有设计相关的工作方式都改了一遍。同样,国内 AI Agent 也以迅雷之势渗透进各行各业的办公场景。写一个文档、做一套 PPT、剪辑一个播客节目、整理数据报表——越来越多工作被 Agent 承接。

可以说,打工人的工作方式,这一年也被悄然改写了一遍。

在海外,Microsoft Copilot、Google Gemini、Notion AI 等多模态办公与创作工具矩阵已成型;国内厂商同样不甘落后,百度文库和网盘联合推出的 GenFlow3.0、金山的 WPS.AI、阿里的千问和夸克、字节的扣子空间等纷纷入局,将写文档、做 PPT、数据处理、图像生成、自动化分发等整合成一站式多模态 Agent 系统。

但问题随之浮现——当 AI 触手可及、无处不在时,用户真正需要的Agent究竟是什么?是完全替代原有流程?还是在工作中主动设计方案?是自动化能力的叠加?还是创造力的扩张?

更关键的是,在所有大厂集体下场之后——谁会成为 " 中国的 Nano Banana",改造国人的工作方式?谁会真正定义下一代创作与办公场景?

带着这些问题,我们挑选了目前国内 5 家主流大厂系 Agent 进行实测:百度 GenFlow3.0、腾讯 ima、金山 WPS.AI、扣子空间、夸克。而通过 5 款产品测评后,我们发现 3 次代际分层正在出现:

1、有能力生产完整工作流;

2、有能力形成数据闭环;

3、有能力持续积累认知与记忆。

  但目前仅两家跨进第三阶段。

1、Agent 的 3 个衡量标准

在回答问题之前,我们需要先理解:AI 到底如何改变了当下的生产和创作方式。

过去,无论是早期的 Office,还是后来兴起的各类 SaaS 创作平台(如 Canva 等),其结构本质都很简单——底层是编辑套件,上层是创作模板、素材和协同工具

在这一阶段,生产力的核心仍然是 " 人 ",创作平台更多只是 " 工具箱 "。

ChatGPT 问世后,微软率先将 AI 能力整合进 Office,开启了传统创作工具的第一次转型。但早期 Agent 只能做文本处理、润色、扩写,内容生成等,直到今年多模态模型成熟,Agent才开始深度介入创作全流程,并推动AI从单一工具,走向一站式"智能流水线"

在这一背景下,Agent 架构也变得更复杂。基于我们对多款 Agent 产品的调研,目前的一站式 Agent 大致可以拆分为三个层级:

这个三层结构,正是支撑未来 AI Agent 从辅助走向主导的关键框架。

在这个全新的结构下,有 3 个 Agent 的衡量标准非常重要:

首先是多模态一站式生成能力。AI 应用正从 " 一个工具解决一个问题 " 的单点时代,迈向 " 一个产品解决多类任务 " 的通用时代。正如 Sam Altman 近期访谈提到:" 通常情况下,大多数用户都希望拥有一款单一且高效的 AI 服务,能够贯穿其整个生活轨迹并持续提供价值,所以 ChatGPT 需要不断增加更多功能。" 今年初,Manus 爆火也加速了这一趋势,通用、多功能整合成为行业共识。

其次是知识库打通程度。真正让 Agent 之间拉开差距、形成壁垒的,不在于大模型,也不在 prompt 和工具,而在于它能在多大范围调动数据。如果素材、语料、用户偏好都能系统化沉淀成知识且跨素材调用、跨风格理解、跨任务迁移,那每次创作就都能建立在可学习、可进化的知识结构上,AI 可以像人一样,越做越好。

最后是人与AI的协作。这也是 Agent 与传统 AI 工具最大的不同。传统 AI 工具由人掌控,创作者意志可以直接贯彻到作品;Agent 则是与人共同创作,AI 是创作者的搭档、助手、副驾驶。这也意味着,人类需要以更主动、全面的姿态介入到传统的"AI黑盒" ——人机协作编辑更加重要。

因此,我们可以对一款AI Agent 是否具备竞争力做出科学的判断,主要有以下三个核心判断标准:

1、是否有足够丰富的 AI 创作工具 /Agent,能够支持全模态、一站式的内容生成;

2、是否有强大的知识库,能够沉淀知识和记忆,并将这些数据反哺到创作当中;

3、是否有良好的人机协作框架,让人与 AI 充分协作。

围绕这些标准,我们对 5 家主流 Agent 进行了系统性测评,并把测试结果收敛整理,形成这张总览图:

产品实测:谁是中国的 "Nano Banana"?

当 AI 真正走进创作与办公场景,决定体验差异的第一道分水岭,并不在于模型参数或算法能力,而在于——它到底能不能把一件事完整的做完。

衡量这一点的首要指标,正是平台功能的完备程度。下表展示了各平台在创作深度与任务跨度上的支持情况:

从功能覆盖度来看,GenFlow3.0是目前唯一具备全模态创作能力的平台,基本覆盖了主流 AI 创作平台的所有核心能力;夸克WPS位列第二梯队,能够支撑起绝大多数常见的创作与办公场景。相比之下,扣子空间与 ima在多模态能力、文档工具链及专业功能上仍存在不同程度的缺口,整体产品形态尚处于持续完善的爬坡期。 

然而,随着各家 AI 的任务覆盖面逐渐趋同,决定用户体验差异的第二道分水岭已然出现:核心矛盾不再是 AI" 能不能生成 ",而是人类 " 能不能随时接管和修正 "。

在这一维度上,决定协作深度的关键指标,正是Office体系的兼容程度

测试结果显示,各平台在这一维度上的表现泾渭分明。除去本身就是办公软件的WPS占据主场优势外,GenFlow3.0是唯一实现 " 原生级兼容 " 的 AI 平台:它不仅支持直接输出 Office 格式,更打通了跨工具、跨设备的编辑链路,真正实现了从 "AI 生成 " 到 " 落地执行 " 的闭环。

在交互设计上,GenFlow3.0 采用了独特的 " 双模态编辑 " 策略:

轻量微调:生成文档或 PPT 时,右侧预览窗支持对话式修改,无论是 Excel 高亮制定列、生成雷达图,还是调整 PPT 格式,一句指令即可完成。

深度精修:若需复杂的排版,一键切换至 " 高级编辑 " 模式即可进入高度还原 Office 的专业界面,操作习惯与功能体验几乎无缝衔接。

相比之下,扣子空间、夸克和 ima虽然也配备了预览窗口及基础的图文编辑功能,但其内核仍是 " 轻量级编辑器 ",缺乏完整的 Office 工具套件支持,难以应对深度的文档处理需求。

除生成能力外,人与Agent的协作顺畅度构成了产品体验的第三道分水岭。这其中的核心命题在于:系统是否赋予了人类在执行过程中随时介入与调优的权利

真实的创作往往是非线性的——它是一个边做边想、随着灵感涌现而不断修正逻辑的动态演进过程。这种 " 螺旋式上升 " 的思维模式,才是人类工作的常态。

遗憾的是,目前大多数 Agent 仍沿用机械的 " 单向执行 " 逻辑:一旦启动便难以打断,即便用户中途发现方向跑偏,也只能被迫等待其执行完毕后再推倒重来,造成了大量算力与时间的双重浪费。

为了规避这种 " 过程黑盒 " 带来的偏航风险,主流产品普遍采取了折中的"前置确认"策略。例如 GenFlow3.0、扣子空间、ima 和夸克等,在生成 PPT 或长文档前,都会强制先生成提纲与视觉风格,待用户 " 签字画押 " 后,才敢进入正式生成的环节。

当然," 前置沟通 " 并非行业标配。以WPS为代表的部分产品仍沿用传统的指令逻辑:用户下达需求后,AI 便进入 " 黑盒执行 " 状态,直至直接输出完整结果。

值得一提的是,GenFlow3.0在这次测试中展现出了最具差异化的交互形态。它不仅具备标准的 " 前置确认 " 流程,更首创了 " 断点续写 " 能力——即允许用户在生成过程中随时按下暂停键进行干预。

实测中,我们在撰写年终总结时故意遗漏了关键信息,中途暂停并补充指令要求 " 着重强调全年业绩亮点 "。GenFlow3.0 接收指令后,并未机械地推倒重来,而是不仅理解了新需求,还能 "接得住 "之前的进度,在原有逻辑流上无缝继续生成。

这种 " 动态纠偏 " 能力,标志着 AI 协作从 " 指令式 " 真正迈向了 " 交互式 "。

至此,人机关系已发生质变:AI 不再是单纯的输出工具,而是进入了被管理、被纠偏、深度协作的 " 员工形态 "。

但当 AI 需要持续参与长链条任务,甚至面对用户的反复打断与修正时,一个底层技术命题随之浮出水面:它凭什么能记得住上下文、接得住新指令、且越干越顺手?

这就触及到了 AI 的核心记忆中枢——知识库

如今,知识库虽已成为 Agent 产品的标配,但真正的体验鸿沟在于:它究竟是一个死板的 " 仓库 ",还是一套自然流动的"知识引擎"。理想的知识体系,不应成为用户的额外负担,而应在阅读、思考与创作的过程中无感沉淀、自然生长

因此,评测的焦点不再是 " 有没有 ",而在 " 怎么存(知识获取)""怎么用(知识应用)" 这两个关键闭环上。对此,我们对各家的表现进行了全景扫描:

在 " 知识获取 " 这一环节,各家的生态基因决定了三种截然不同的护城河:

首先是 ima,它的优势在于对腾讯生态内容的深度整合。它不仅支持腾讯文档的一键导入,更直接打通了微信公众号文章的收藏链路。这意味着那些封闭在微信私域内的高价值内容,只有 ima 能将其便捷地转化为可调用的知识资产。夸克的优势则建立在浏览器这一高频入口上,通过截屏划词,夸克可以将碎片化信息的收集门槛降至最低。

相比之下,GenFlow3.0的优势不仅仅是全,更在于 " 专 "。依靠百度文库百度学术的庞大数据库,它能获取到海量别人搜不到的内容——比如各行业专家上传的专业文档、公文模板、考试题库以及深度的学术论文。这些通常需要付费或特定权限才能看到的独家干货,构成了 GenFlow3.0 最硬核的知识底座。

此外,GenFlow3.0 还构建了一套独特的 " 内循环 " 机制:所有由 AI 生成的内容,都可以一键回流至知识库,在画布中被自由拖拽、重组,并再次参与创作。知识不再只是被存放,而是在反复使用中持续增值,真正实现了随取随用、越用越强。

当然,知识的获取不是目的,让获取的知识为创作赋能才是目的。

当我们将视角转向" 知识应用 " 时,体验的分水岭随之显现:

夸克虽然在采集端表现出色,但目前存在明显的 " 存储 - 应用 " 断层——其收藏的内容多以 " 书签 " 形式存在,无法在创作中直接调用,这大大削弱了知识库的实用价值。同样,ima的知识库底座虽然强大,但却由于工具链过于单薄,能够调用知识库的场景寥寥无几,导致沉淀的知识价值无法被充分发挥出来。

真正的闭环出现在GenFlow3.0WPS身上。

WPS 依托云盘打通了手机、电脑、平板及微信等全端文件,支持实时上传与调用,构建了 " 素材存储 - 内容创作 " 的标准闭环。

GenFlow3.0则构建了更立体的"四重资料体系"对外连接百度文库、百度学术的专业知识,对内通过百度网盘同步各端数据;同时还能自动备份你的查阅历史和 AI 生成内容,再加上自定义知识库,同样打通了 " 收、存、用 " 的完整闭环。

3、淘汰赛正式开始!

很多人说 2025 年是 AI 应用的元年,到了年底,AI 应用却已经迈入了下一阶段。

一方面,单一的AI工具正在加速向一站式Agent创作平台演进。另一方面,行业格局也在重排——大厂正迅速取代创业公司,成为这场竞争的真正主角。

这两大变化相互叠加,清晰地勾勒出 AI Agent 的下一阶段走向。

在此之前,Agent 靠差异化生存——找到足够细小的赛道就能立足;但在这之后,百川汇流,Agent 正式进入正面战争。如果说过去是 " 晋级赛 ",那现在接下来算是进入 " 淘汰赛 " 了。

淘汰赛的竞争是全方位的,这种全方位,不仅包含图片、视频、音频、文字在内的多模态模型;也包括流量和入口在内的生态协同。这也是为什么大厂在这场游戏中逐渐占据优势的一个重要原因。

但问题也恰恰出现在这里,当牌桌上只剩下大厂,大家同样资源雄厚时,真正可以拉开差距的地方,显然还是产品。

那么,AI 时代 Agent 的终极形态应该是什么样?我不知道,但我可以确定的是:Agent的终极目标,绝不是在一套固定流程里替用户完成几项固定任务。 

它应该成为一个 " 伙伴 ",而不是 " 工具 ";它也不应该只服务于具体的工作场景,而是贯穿你生活与创作始终。

正如李飞飞所说,AI 的最终使命,是成为人类应对重大挑战的得力伙伴,让人类潜能得到更大的释放,创造一个更美好的未来。

然而,这正是当下许多产品面临的最大挑战——许多产品依然停留在流程化思维中,把创作理解为可预设的步骤。但显然,如果 AI 只是按照流程行事,那它终究又会回到传统 SaaS 的老路,失去应有的创造力与可能性。

因此,未来 Agent 的核心赛点不再取决于单次的 " 生成惊艳度 ",而在于它能否真正渗透进复杂的工作现场,并长期驻扎下来。

对绝大多数人而言,工作的本质并非对话框里的闲聊,而是对文档、PPT 与表格的反复打磨。如果 AI 止步于一次性交付,无法进入这些深度编辑场景,那它终究只能是游离于核心工作流之外。

所以,我们认为真正的下一代 Agent,必须重构三大能力支柱:

当 Agent 具备了这些素质,竞争便超越了模型接口的参数之争,转变为人类员工 " 长期协作伙伴 " 的生态位之争。

在办公和创作场景下,真正的中国版 "Nano Banana",不会诞生在某个炫技式的 Demo 中,而只会诞生在——那个你每天都离不开的,多模态创作的 " 超级员工 " 身上

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

nano ai 自动化 腾讯 迅雷
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论