邓咏仪 昨天
阿里AI猛补课,蚂蚁的“灵光”灵不灵?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文|邓咏仪

编辑|苏建勋

阿里系公司,正在 To C 市场全力出击。

11 月 19 日,蚂蚁正式宣布推出全新应用 " 灵光 ",首批上线了三大功能模块,分别是 " 灵光对话 "、" 灵光闪应用 " 和 " 灵光开眼 "。

" 灵光 " 的定位是 " 全代码生成多模态内容 "AI 助手。用一句话来解释,AI 助手的回复不再是单纯的文本,每一次对话,交付物都是一个可以交互的网页,能生成图文、3D 模型、动画、地图、表格、音视频等全模态内容。

△来源:灵光

在 " 闪应用 " 中,用户只需输入一句自然语言,灵光就能在 30 秒内生成可编辑、可交互的小应用,支持多种信息输出方式。

" 灵光开眼 " 则更像一个视觉助手,用户可以通过上传图片或实时拍照,让 AI 识别并理解图片内容,进而提供相关信息或执行后续操作。

11 月 18 日上线后截至发稿," 灵光 " 下载量已超 100 万,排在 App Store 总榜第 6。这一增速也已超越多款现象级 AI 应用。据移动应用分析机构 Appfigures 数据,近期通用引起热议的 Sora2,破百万则用了 5 天。

另一个巧合在于,就在 11 月 18 日,阿里将旗下的 AI To C 应用进行了翻新和整合,以 " 千问 "App 的形式重新推出;蚂蚁推出的 " 灵光 " 仅仅相隔一天就推出。

为何相隔一天推出两款对话式的 AI 助手?蚂蚁集团 CTO 何征宇表示,在产品发布双方并没有提前约好时间,只是巧合。

一个大背景是,前几年,阿里并没有投入太多到 To C 应用上。2025 年,AI 领域重回模型竞赛之后,阿里在 To C 应用上明显开始快速 " 补课 "。" 千问 " 上线时,阿里就曾高调宣布全力打响 AI To C 之战,大有抢占新入口的架势。

对阿里而言,鸡蛋也不能放在一个篮子里。" 马老师也鼓励我们,让我们冲到 App Store 榜前列。" 蚂蚁 CTO 何征宇表示。

当前模型能力依旧在快速变换中,充满不确定性,押注多个方向才是比较合适的策略," 我经常打一个比方,如果在沙漠中要找水,我一定不会把所有人都派到一个方向上,一定是好几路一起去找。"

两款产品在定位上也有明显区隔。

从定位上看," 千问 ",基于阿里旗舰模型 Qwen 来构建,更像是阿里展现模型实力的出口,适合处理通用知识问答、长文本写作和复杂的逻辑推理任务。

相较之下," 灵光 " 更侧重移动端交互的交互创新。" 灵光 " 不仅能回答问题,还能通过生成代码来渲染多模态内容(图表、界面等),直接交付一个信息容量丰富的网页;二是押注代码能力,让 AI 直接帮用户生成小程序。

不过何征宇也补充,灵光的目标并不是通用助手入口,也不像豆包等应用主打陪伴功能,还是定位效率工具。

不做 AI 陪伴,做信息密度更高的 AI 助手

和传统的通用 AI 助手相比,灵光的最明显差异,在于信息展现形式的创新。

这相当于在原来的 AI 助手对话形态上前进一步—— AI 的回答不再只有文字,而是会画图、做动画、生成 3D 模型、制作图表,就像一个边说边画的老师,让人看得见摸得着。

举个例子,当用户问 " 怎么做糖醋排骨 ",传统 AI 助手给用户的回答大概率是一段长长文字食谱。但并不是所有人,都习惯这种长篇大论的交互," 灵光 " 则希望用更多种模态的形式来做展示。

《智能涌现》试着用菜谱场景来测试,比如搜索 " 怎么做糖醋排骨 "。

第一体验是非常丝滑——灵光在数秒内,就生成一个色泽鲜亮的糖醋排骨长图,不仅会给出详细步骤,还用不同字体、小标题、图表,甚至表情包,进行图文并茂的排版,让用户能更快地看懂。

△来源:智能涌现制图

灵光产品负责人蔡伟用了一个类比来解释:" 这就像是从 email 进化到 web 时代。以前写邮件只能用文字,现在打开网页,有图片、视频、交互按钮。我们希望 AI 的回答也能达到这种信息密度。"

这种 " 所见即所得 " 的交互,天然更适合人类认知世界的方式,也可以适用在更多场景中——比如,在写论文时随口问个问题,AI 直接给你生成了一张图表;讨论装修时它给你画出 3D 户型图;聊到太阳系,一个行星运转的动画就出现在对话框里。

" 我们每天都会接触各种各样的信息,很多时候都淹没在信息的海洋里。" 蔡伟表示," 但这些信息里哪些是重要的?以前我们去搜索引擎搜,它给你一堆链接,需要一个个点进去看。我们更希望用更高效的方式,让信息传递效率最大化。"

优化信息的表达方式是第一步。灵光的另一个拳头功能 " 闪应用 ",能根据用户需求,自动生成交互式 " 小应用 "。

比如,用自然语言说 " 帮我做一个计时器 ",30 秒后,一个可以直接使用的计时器应用就生成了,这些小应用可以直接使用、编辑、保存和分享,就像真正的 App 一样。

这种技术路径,并不是难在概念——目前所有的顶尖模型厂商都会用这种方式展示自己的 AI 能力。但无论是 AI 生成的网页、App,是否真正达到可用状态,才是更关键的。

这种难度更多体现在模型架构、工程实现上。蚂蚁集团 CTO 何征宇在采访时,就透露了一个数据:相比纯文本输出,代码的膨胀率大概是 5-6 倍。

简单理解,对于一个 15 个字的指令 " 生成一个居中的蓝色‘提交’按钮 ",模型需要生成一个可以实际交互的组件,需要的代码量,很容易就达到几十甚至上百个字符。

难度在于,用简单的指令,让模型生成大量内容(高膨胀率),本身就需要更多的计算资源和时间——如何保证模型的高性能和稳定," 灵光 " 就做了大量的工程实现优化。

这不仅需要代码生成能力,还需要推理能力足够精准(判断用什么形式呈现信息)、工具调用能力(动态生成地图、图表)、数学能力(处理数据可视化),以及对用户意图的深度理解。

也正因为如此,在蚂蚁内部,灵光被定义为 " 在技术前沿上,在最不稳定的边界上建立产品 "。

和其他 AI 生成 web 应用的产品相比,灵光的特色是直接可以在移动端上做应用,而是可以直接开始用的成品,工程难度更高。

△一句话用灵光制作的 " 吃什么 " 应用 来源:蚂蚁

DeepSeek 解放了大厂做应用的包袱

今年 1 月 DeepSeek R1 的发布,是蚂蚁决定 all in AGI 的转折点。何征宇回忆起那个时刻的心情,用了三个词来概括:兴奋、紧迫感、羞愧。

"AGI 原来是几百亿、上千亿美金的传说,DeepSeek 用很小的资源投入就把它做出来了,这给了我们极大的信心," 何征宇说," 我们也在反思,以往我们很多的技术积累,没有把它很好地表达出来,整合到一起,让用户直接能感受到价值。"

春节后,蚂蚁就集结资源,成立了独立的 AGI 组织 "Inclusion AI",一个集 Research(研究)、Engineering(工程)、Producting(产品)三位一体的组织架构。

战略上,蚂蚁也做了选择:并不意在争夺 AI 通用助手的入口——比如主打 AI 陪伴的豆包,希望做让用户消耗时间越,而是先聚焦在更细分的方向:coding 能力 + 全模态,定位效率工具。

围绕这个细分目标,蚂蚁做了不少取舍。比如,今年模型厂商纷纷在竞争推理能力,但灵光并没有选择嵌入到产品中。"DeepSeek 已经做得足够好了,能帮大家解决很多问题,我们没有必要再去复刻。" 蔡伟表示。

蚂蚁赌的是基础模型不断上涨的代码能力。

在 " 灵光 " 立项的 2025 年 3 月,基础模型的 coding 能力仍在非常早期的阶段,一句话生成应用的效果非常不理想。

" 我们当时确定的是 Coding 是很重要的能力,并且会不断向前发展。但到底能发展到什么程度,是在 3 个月、6 个月还是 9 个月达到用户预期?其实有非常多不确定性。" 蔡伟表示。

模型能力决定了产品的上限。蚂蚁选择从模型和产品两个方向同时去做——基模团队在这一阶段提升底层代码能力,应用团队负责做后训练和产品打磨。

而蚂蚁选择做的功能迭代,都是可以长期积累的,可复用的模块。当基础模型升级时,所有的后训练优化都能叠加上去,而不是推倒重来。

在 DeepSeek 时刻之后,各家的 AI 应用在产品主张上已经有明显的分化。在当下,品味可能和比短期竞争更重要。

差异化是如今 AI 市场上的最关键问题——通用 AI 助手依托强大的基座模型迭代,场上的位置已然拥挤。比如,字节的豆包走更亲民、偏重语音交互等多模态路线;而 DeepSeek、Kimi 则侧重更专业化的工作场景。

如果用一句话概括蚂蚁的 AGI 策略,也许是要做 AGI 时代的二维码。

这意味着要用最小的成本,来找新技术的 PMF(Product Market Fit),切口要小,交付的价值足够集中。" 二维码不是我们发明的,但我们是推广最广泛的,把它应用于支付场景,今天的 AI 应用也面临这样的难题。" 何征宇说。

未来,灵光还在在规划闪应用生态,包括应用市场、托管平台和分享机制。" 我们还是希望降低所有人创作和消费闪应用的门槛。" 蔡伟说。短期内,灵光平台计划上线创作收益页面,探索应用从创作到消费的闭环。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 ai 补课 cto 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论