" 接下来,AI(人工智能)的重点将从解决问题转向定义问题。" 近日,OpenAI 研究员姚顺雨在其新博文中表示,AI 下半场的重点将从解决问题转向如何定义有现实意义的任务,如何有效评估 AI 系统的表现," 要思考‘我们应该训练 AI 做什么?我们如何衡量真正的进步?’ "
当 Agent(智能体)已成大势所趋,字节跳动近期开启了其 Agent 产品 " 扣子空间 " 的内测。哪怕是在邀请制度下,拥有如字节般的算力资源,服务器还是被用户的热情挤爆了,产品邀请码也成为社交平台和二手交易平台上的紧俏 " 硬通货 "。
4 月 22 日,在获得邀请码后,《每日经济新闻》记者第一时间进行了深度实测。实测过程中,记者发现 " 扣子空间 " 在归纳整理现有信息、制作可视化图表及网页等任务方面完成度较高,但现阶段还未能进行多模态任务,例如主动获取并分析图片、视频中的信息。
从商业化角度来看,曾经 " 一码难求 " 的 AI Agent 产品 "Manus" 已在 3 月末公布了用户收费细则,如今字节跳动、百度等头部 " 大厂 " 接连布局,Agent 是否会带来一条清晰的变现路径?在 " 大厂 " 的生态优势和算力资源面前,创业公司打造 Agent 产品中的机会何在?
每经记者实测 " 扣子空间 "
" 扣子空间 " 既做 " 通用实习生 " 又做 " 领域专家 "?
" 太快了,没了 "" 求个邀请码 "" 爆满了 ",在 " 扣子空间 " 正式开启内测后,小红书、即刻等社交平台上涌现出大批想去体验的用户,该产品的邀请码甚至在闲鱼等二手交易平台上被明码标价交易。
官网显示," 扣子空间 " 主打生产力全面提升、专家能力深度支持、写作模式灵活调整以及能力边界拓展延伸的优势。官网展示了市场调研报告分析、股票早报定制、生成互动式教学网站以及旅游攻略制作等 16 个典型应用场景。" 在扣子空间里,精通各项技能的‘通用实习生’,各行各业的‘领域专家’,任你选择。"
《每日经济新闻》记者注意到," 扣子空间 " 具有探索与规划双模式,前者完成任务速度更快,后者则是 AI 规划步骤、用户可以分步进行修改任务指令。同时," 扣子空间 " 首批集成了高德地图、飞书多维表格、墨迹天气和 Notion 等 MCP(模型上下文协议)服务,供用户在发布任务时自由调用。
"Agent 可以做的事情更多,很多事情不限于文本交互。" 一位头部大模型技术人员在接受《每日经济新闻》记者电话采访时表示,相较于 Chatbot(聊天机器人),Agent 可以自主地学习调用工具、处理涉及多模态的复杂任务。
在获得邀请码后,《每日经济新闻》记者第一时间就复杂旅游规划、互动型小游戏制作以及视频信息提取等任务对 " 扣子空间 " 进行了深度实测。
每经记者实测 " 扣子空间 "
首先在旅游规划上,在提出 " 今年‘五一’假期,我和父母要去日本东京玩 6 天,想看富士山,还想吃到当地特色小吃和 2 家米其林餐厅。请你为我制作一个图文并茂的旅行手册 " 的需求后,Agent 将该任务拆解为信息收集、资料整理与撰写和手册制作三步,最后耗时 30 分钟,交付了一个包含每日旅游线路地图、观赏地点以及天气情况的网页。
该网页设计风格简洁优美,但旅游攻略制定得较为笼统,例如在餐厅详细信息以及预约情况等内容上有所缺失。
随后,记者向 " 扣子空间 " 提交了制作一个植物科普小游戏网页的请求,一个名为 " 植物科普小花园 " 的简单互动小游戏旋即生成。小游戏页面展现了 4 种卡通风格的常见植物,点击每种植物即可了解其基本信息和相关小知识。
但美中不足的是,这些植物以卡片形式呈现,而非提示词中要求的 " 希望背景是一个大花园,常见植物栽种其中,呈现动态摇摆状态 "。对此,一位大模型算法工程师通过微信向记者解释,对于现在能调用的 MCP 来说,实现这一指令太困难。" 还没有给 AI 用的游戏制作软件。"
在视频信息提取任务上,记者注意到," 扣子空间 " 可以根据提示词自主寻找到 B 站平台上的相关视频,但暂时还无法进行视觉推理。
" 大厂 " 入局,Agent 还是创业公司能玩的游戏吗?
" 要让 AI 真正为各行各业带来变革,Agent 是必经之路。" 在 4 月 17 日进行的火山引擎 AI 创新巡展杭州站会后,火山引擎总裁谭待在接受《每日经济新闻》记者采访时表示。
在他看来,具备能完成专业度较高、耗时较长的完整任务的能力,才能称之为 Agent。" 能完成打油诗、简单报告等任务的不能称为 Agent。" 他说:" 从技术实现角度来看,如果没有运用思考模型,缺乏反思和规划能力,也很难被认定为 Agent。"
一位头部大模型技术人员在接受记者电话采访时表示,从技术方面来看,目前 Agent 可以分为两种,即以 OpenAI o3 为代表的基于 Agent 任务训练微调的模型,以及依赖预训练能力、提示词工程和系统设计的 LLM(大语言模型)系统。"Perplexity、Manus 都属于后者,扣子空间大概率也是。"
在 Agent 的布局过程中,Claude 母公司 Anthropic 推出的 MCP 成为近期国内外头部厂商的一大关注点。MCP 通过统一的协议标准,使 Agent 能够以一致的方式接入各种本地或远程工具,降低了开发复杂度。
在 4 月 17 日的采访中,谭待表示协议统一很重要。" 如果能做到统一协议,大家的应用开发就会更快,模型调用也会更智能。"
" 字节跳动拥有视频、电商、本地生活、移动办公等丰富多元的应用生态体系,它去做 Agent 就有初创企业根本无法比拟的优势。" 快思慢想研究院院长田丰接受《每日经济新闻》记者采访时表示," 因为它能调用的工具、App 非常多,而初创企业需要一家家(合作方)去谈,而且就算技术上都支持 MCP,也存在商业授权问题 "。
既然 " 大厂 " 在 Agent 领域已有自己的先发优势,那么创业公司发力 Agent 还会有机会吗?
" 当然有了。" 田丰很笃定。他以近期 OpenAI 计划以 30 亿美元收购 AI 编程初创公司 Windsurf 为例," 这家公司在编程决策智能上就有很强的差异性,而且做得非常专。所以做专业、做深入,永远会是创业公司的(立身)基础 "。
工信部信息通信经济专家委员会委员盘和林也通过微信向《每日经济新闻》记者表示," 大厂 " 虽在 Agent 产品上有优势,但其产品可能会难以满足垂直行业的深度需求。" 现阶段的 Agent 和垂直领域需求的融合难度还比较大,主要还是解决一些特定领域的问题,比如写代码。"
与此同时,记者注意到,国内外一些知名 Agent 已推出付费模式。例如,Manus 在今年 3 月末宣布推出每月 39 美元和 199 美元的两种套餐。
谈及 Agent 未来的商业化可能性,田丰认为,现在 Agent 属于早期发展阶段,字节跳动等 " 大厂 " 需要打通更多工具的调用渠道,培养出一个良好的开发者生态," 直到 Agent 可以解决用户刚需问题,真正提高生产力、让用户有生产提效效益时,用户自然愿意进行付费 "。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦