
IDC 预测,2026 年中国 AI 手机出货量将达 1.47 亿台,占整体市场的 53%。行业把今年叫 "AI 手机元年 "。
但 "AI 手机 " 这四个字背后,各家在做的事差得很远。
表面上大家都在说 " 让 AI 帮你操作手机 ",底层逻辑却完全不同。有人让 AI 直接看屏幕操作,有人让 App 主动开放接口,有人在自家生态里打通服务。三条路,各有各的逻辑,各有各的天花板。
三星 S26 发布,努比亚总裁倪飞发微博说谷歌和三星 " 比我们晚了三个月 "。这句话本身没错,但用 " 早晚 " 来衡量这件事,有点出入。毕竟字节、谷歌、阿里,AI 手机的方案根本不在同一条跑道上。
谷歌:让 App 主动开门
谷歌今年 2 月发布了两套并行方案:AppFunctions,和 Intelligent UI Automation。
AppFunctions 的逻辑是,App 开发者在代码里标注哪些功能可以被 AI 调用,比如 " 创建日历事件 "、" 搜索照片 "。这些声明被编译成索引文件,提交给安卓系统。Gemini 收到用户指令,先查索引,找到匹配功能,在设备本地直接调用,全程不经过外部服务器。
谷歌把 AppFunctions 定义为 " 手机端的 MCP"。MCP 是 AI 圈的协议,解决 AI 模型如何连接外部工具的问题。AppFunctions 把这套逻辑搬进手机本地,App 主动开放接口,AI 按接口调用,有授权,有边界,有记录。
搭载该系统的三星 S26 展示了一个案例,用户对着 AI 说 " 找我家猫的照片 ",Gemini 就会调用三星相册的接口,照片直接出现在对话界面,用户没有打开任何 App。
我们用更常用的淘宝为例。如果淘宝接入 AppFunctions,开放 " 搜索商品 " 的接口。此时,用户对着 Gemini 说 " 帮我在淘宝找一双跑步鞋,预算 1000 以内 ",Gemini 就能直接调用淘宝的搜索接口拿回结果,在 AI 对话页面展示给用户,全程用户不需要打开淘宝。
淘宝也能控制哪些功能开放、哪些数据不对外暴露,权限边界由 App 自己划定。

但这么做限制也很明显,App 必须主动接入,目前支持的主要集中在日历、备忘录这几个类别。
所以谷歌同时推了 Intelligent UI Automation 作为补充,专门针对还没接入 AppFunctions 的 App。AI 通过模拟点击、滑动完成任务,开发者不需要改一行代码。目前在 S26 系列 和 Pixel 10 上小范围测试,支持外卖、打车等少数场景。用户可以随时接管,遇到付款,Gemini 会先弹确认。
谷歌官方说 " 今年晚些时候分享更多细节 "。功能上线了,规范还没写完,边界在哪里谷歌自己也还在摸索。因此,这也就是中兴倪总所谓的三星 +Gemini 只完成了努比亚的局部能力。
字节:直接看屏幕,但被微信堵在门口
字节 + 努比亚的豆包手机,走的是另一条路,其底层是字节自研的 UI-TARS 模型。
工作方式很直观,截屏,截图输入视觉模型,模型分析屏幕上有什么,决定点哪里,通过安卓无障碍权限把指令发给手机。截图、分析、点击,循环,直到任务完成。不需要任何 App 配合,理论上能操作手机上所有应用。
同样以淘宝举例,豆包手机不需要淘宝授权,它能识别淘宝页面中每一个按钮是做什么的,点击哪个能实现什么功能。你让豆包手机搜索商品,它会像真人一样,点来点去,直到生成答案。

这一切都建立在 UI-TARS 模型的强大能力中,在 AndroidWorld 基准测试,UI-TARS 1.5 得了 64.2 分,GPT-4o 是 34.5 分。
首批 3 万台豆包手机曾经吵得火热,而今除了科技测评人,还有多少人在用?新技术会引发一时狂热,但热度散去大家才发现,很多底层问题都没解决。
实际使用中,微信、支付宝、淘宝、各类金融 App 会直接弹安全警告拦截操作。这些 App 的安全机制能识别出 " 有程序在模拟人点击 ",判定为异常。此外,豆包手机依赖的无障碍权限,设计初衷是帮助残障用户,AI 拿来批量操作 App,踩的是整个安卓生态的红线。
而且很多软件升级安全策略,UI 更新,都可能让豆包手机的一部分功能失效。
虽然,谷歌的 Intelligent UI Automation 和豆包手机在技术原理上差不多,都是看屏幕、模拟点击。但谷歌的方案有系统层背书,谁让安卓是他的。豆包走的是权限的灰色地带,没有这层信任基础。
动作相近,性质不同。
阿里:最安全,也最难
阿里的路线叫 A2A,Agent to Agent,智能体互联。春节期间,我们用千问点奶茶,操作起来和也挺像 AI 手机的,但还是有区别。
千问不看屏幕,也不碰手机系统权限,直接调用 App 的服务接口。用户说 " 帮我在饿了么订午饭,再用高德叫辆车去下午的会 ",千问把两个请求分别派发给饿了么智能体和高德智能体,各自完成,结果汇总返回。全程没有截图,没有模拟点击,数据在预设接口里流转,隐私风险几乎为零。
但前提是,这些操作都需要在阿里自己的生态里。淘宝、饿了么、高德、支付宝本来就是同一家公司,接口打通的谈判成本几乎不存在。
一旦脱离阿里生态,这些操作就行不通了。
让千问帮用户操作美团、抖音、滴滴、微信、小红书,需要这些公司主动开放接口。美团、字节、滴滴、腾讯、小红书一家一家谈下去,都需要时间,只不过随着随着各家都在探索和推出智能体,A2A 路线的上限,也会随着生态边界的拓宽不断变宽。
AI 手机到底长什么样?
三条路,三种下注逻辑。
字节押的是速度,靠通用性换先发,代价是和整个 App 生态的安全机制进行抗争。但好处是人们一提到 AI 手机,都会想到字节。
阿里押的是安全感,隐私风险最低,天花板也最清晰。
谷歌押的是规则,AppFunctions 开发者文档已经迭代到 alpha07 版本,每个 API 都有完整规范,慢但每一版都在扩大生态。
而且谷歌还有一张牌没打出来,苹果今年确认将用 Gemini 驱动下一代 Apple Intelligence。落地之后,Gemini 将同时成为安卓和 iOS 的 AI 底座,覆盖全球绝大多数手机用户。AppFunctions 的标准,就不只是安卓的规则,而是整个移动互联网的规则。
当 AI 成了用户和 App 之间的新一层,控制了这一层,就控制了下一代的流量入口。

三条路线都有各自的天花板,但更大的问题是:AI 手机的几个方案都还没跑通。
谷歌搞 AppFunctions,最终能走多远,得看有多少 App 愿意主动接入。目前最大的障碍就是开发者,现在支持的,也就 Uber、Grubhub 这几个。此外,国内的微信、美团、抖音,不会因为谷歌发了一套 API 就排队来接。
信任这关,更麻烦。AI 帮你点外卖,出错了顶多重来一单。AI 帮你转了账,发现转错了,这锅谁背?目前三条路线都没给出答案。就和自动驾驶一样,没有法律的背书,无论案例多光鲜都是自嗨。用户的信任是慢慢建起来的,但往往要出几次真实事故才会被认真对待。
更重要的是场景这关,说白了就是 AI 手机到底有什么用?现在演示的都是 " 找照片 "、" 订外卖 "、" 叫车 ",指令清晰,步骤固定,一气呵成。然而,真实生活不是这样的。" 帮我把上周和那谁的聊天方案整理一下,顺便把下周的会议改到周五 ",这种才是日常,没有一家现在能顺滑处理。
AI 手机卖出去是一回事,用户每天真的在用 AI 操作 App,是另一回事。




登录后才可以发布评论哦
打开小程序可以发布评论哦