全天候科技 昨天
钉钉的悟空,有了金箍棒
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

孙悟空真正让天庭头疼,是拿到金箍棒之后——随心所欲的 " 本命法宝 ",让他如虎添翼,所向披靡。

3 月 17 日,钉钉发布了名叫 " 悟空 " 的 AI 平台。它能接管你的浏览器、替你搜东西、在你不在的时候操作你的电脑——有手有脚,能执行。

而阿里千问刚发布的 Qwen3.5-Omni,一个能看视频、听音频、把音视频拆成可以直接干活的结构化数据的全模态模型——像极了孙悟空的那根金箍棒。

目前,猴子和棒子还没完全合体。

但一旦合上,这东西会很强。

一、悟空能干什么活

钉钉的悟空,是能力强大但守规矩的企业级 " 龙虾 "。

(1)一句话全网比价

我让它在淘宝、京东、拼多多上搜 " 大疆 Osmo Pocket 3",比价格和销量,截图,整理成 Excel。

它接管了我的浏览器——打开淘宝,输入关键词,滚动浏览,截图保存;跳到京东,同样动作;再到拼多多。

三个平台跑完,桌面上多了一个 Excel 文件:前 5 个最便宜且高销量的商品,按平台、店铺、价格、链接排列,最低价标红。

它不是在 " 告诉 " 我哪个便宜。它在 " 替 " 我比价、截图、制表。全程我只打了一段话。

当然有毛刺——需要提前在各平台登录好账号,否则验证码会拦住它。

(2)内容雷达

第二个很实用的场景,不是发生在电脑前。

我用手机钉钉给悟空发了一条消息:设个每天早 9 点的定时任务,自动打开电脑浏览器搜 " 最新 AI 动态,制作做一个 AI 相关的选题 ",提取 3 条摘要附来源链接,发到我手机上。

悟空调取了相关 Skill,自动创建了任务。第二天早 9 点过几分,手机弹出早报——排版整齐,链接可点。

(3)拉客户、做网站

我还拿悟空跑了一个建网站的任务,选了官方技能市场的 skills,跑出了可运行的网站和完整源码——审美还需打磨,但从 0 到 1 的能力确实在;市场部门以用它生成定时的竞品监控;动画大师一句话出完整数据动画视频。

发布会上还有一些更激进的演示。一个汽修门店店长对悟空说 " 帮我拉 100 个客人 ",AI 自主完成了从竞品分析、学习爆款、社媒发帖到评论引导的全链路。

这些场景如果日常能稳定跑通,说明 AI 正在从 " 执行指令 " 走向 " 帮你干完 "。

说完亮点,也聊聊产品初期不可避免的不稳定因素。官方给了一个案例的数据,有用户反馈,做一个 PPT 消耗了约 2.7 亿 Token。AI 从对话走向执行后,操作文件、反复修改、跨系统调用,token 消耗是量级变化。

悟空的 RealDoc 文件系统官方称 token 效率提升了 5 倍,方向对了,但对精打细算的中小企业来说,可能还需要更稳定的系统、更优秀的 skills 来让 ROI 算的清晰、算的过来。

二、金箍棒长什么样

悟空有手有脚,但暂时缺一样东西:眼睛和耳朵。它能操作浏览器、读文档、跨端执行,却还看不懂一段视频里发生了什么,听不出一段录音里谁说了什么、语气如何。

你一定有过这种经历:两小时的会议录像安安静静躺在网盘里,没人回看——因为回看的成本几乎等于再开一次会。爆款带货视频刷到了,隐约觉得转化逻辑值得学,但没时间逐帧拆解。英文播客、方言客服录音——听过就过了。大量有价值的音视频内容," 看过 " 之后再没有然后。

阿里千问刚发布的 Qwen3.5-Omni,做的就是把 " 看过就过 " 变成 " 拆开来用 "。

说说我们的实测。

我们用它来拆爆款 TikTok 带货视频。

输入一条义乌招商类带货视频,模型按 Hook、卖点排序、画面证明点、字幕策略、情绪节奏、CTA 时间点、目标人群七个维度做了结构化拆解。核心洞察让我印象深刻—— " 这条视频卖的不是商品,而是确定性 ":三级物理证据链构建信任、"2 万种 SKU+20 美分均价 " 制造数字锚点、保姆式承诺实现风险逆转。

更关键的是迁移能力:要求它按同样逻辑给 "T 恤定制工厂 " 写一个脚本,它成功输出了可执行的 5 步模板,Hook 改成了 " 拉扯 T 恤展示弹性 ",实力证明换成 " 印花机喷墨特写 + 揉搓不掉色 ",连评论区运营引导都写好了。

还有一个 " 口述写代码 " 的测试。手绘一张故意画得很粗糙的 APP 线框图,打开摄像头对着镜头口述需求,它直接生成了可运行的 React 代码。继续口述修改——侧边栏、圆角、深色主题、按压动画——多轮迭代下来上下文始终没丢。边看、边说、边改,这是人类最自然的交互方式,它接住了。

底层支撑这些表现的:混合注意力 MoE 架构,超 1 亿小时音频数据的原生多模态预训练,215 项第三方测试取得 SOTA,多项指标超越 Gemini-3.1 Pro。256K 上下文窗口,支持超 10 小时音频。113 种语言和方言的语音识别,36 种语言和方言的 TTS 合成。定价:每百万 Token 输入不到 0.8 元——不到 Gemini-3.1 Pro 的十分之一。

一句话概括:Qwen3.5-Omni 让音视频变得 " 可拆 " ——不是 " 看懂了 " 就完了,而是拆成可检索、可复用、可以直接拿去干活的数据资产。

三、当悟空拿起金箍棒

悟空能操作浏览器、读写文件、跨端执行、调用钉钉上千项能力,但它处理不了音视频,就没办法让用户在最自然的商业场景中广泛使用;Qwen3.5-Omni 能把视频按时间戳拆成结构化数据、听懂多语言录音、理解画面和语音的混合输入,恰恰弥补上了这一环。

如果两者成功结合:你把两小时的会议录像扔给它。它不只是生成一份纪要——它听出谁在什么时间说了什么、语气是坚定还是犹豫、哪些话是待办事项,然后直接在钉钉里创建任务、分配给对应的人、设好截止日期。从 " 看懂会议 " 到 " 执行会议结论 ",中间不需要任何人再动手。

运营团队不用每天人工盯竞品的短视频账号了。AI 自己去看竞品视频、拆解转化逻辑——就像 Qwen3.5-Omni 拆那条 TikTok 带货视频一样——输出可迁移的脚本模板,然后在悟空里自动在社交媒体上发布改编后的内容,甚至进一步拉客获客。从 " 分析竞品 " 到 " 产出内容 " 到 " 获客转化 ",一条龙搞定。

或者更日常一点:客服录音质检。过去需要人听、人记、人打分,一天能质检的通话量有限。接入全模态能力后,AI 自己听完所有录音,输出每通电话的情绪轨迹和话术评分,标记出问题通话,生成改进建议,再把结果写进钉钉的管理系统。

这几个场景的共同逻辑是一样的:感知→理解→执行,完整闭环。悟空解决了执行,Qwen3.5-Omni 解决了感知,且 Qwen3.5-Omni 不到 0.8 元 / 百万 Token 的定价也让整个飞轮在价格上可行,拼图就差合上这一步。

结语

西游记里,悟空从石头缝蹦出来时就已经能打了。但他拿到金箍棒、认了师父、上了路之后,变得越来越强。

钉钉的悟空已经蹦出来了。金箍棒刚铸好,还没交到手上。取经的路很长—— Token 成本要降,产品要磨,2700 万企业的认知要一家一家啃。

但猴子、棒子、路,都在了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 拼多多 淘宝 京东 孙悟空
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论