都说自己是AI手机，字节、谷歌、阿里走的根本不是同一条路

IDC 预测，2026 年中国 AI 手机出货量将达 1.47 亿台，占整体市场的 53%。行业把今年叫 "AI 手机元年 "。

但 "AI 手机 " 这四个字背后，各家在做的事差得很远。

表面上大家都在说 " 让 AI 帮你操作手机 "，底层逻辑却完全不同。有人让 AI 直接看屏幕操作，有人让 App 主动开放接口，有人在自家生态里打通服务。三条路，各有各的逻辑，各有各的天花板。

三星 S26 发布，努比亚总裁倪飞发微博说谷歌和三星 " 比我们晚了三个月 "。这句话本身没错，但用 " 早晚 " 来衡量这件事，有点出入。毕竟字节、谷歌、阿里，AI 手机的方案根本不在同一条跑道上。

谷歌：让 App 主动开门

谷歌今年 2 月发布了两套并行方案：AppFunctions，和 Intelligent UI Automation。

AppFunctions 的逻辑是，App 开发者在代码里标注哪些功能可以被 AI 调用，比如 " 创建日历事件 "、" 搜索照片 "。这些声明被编译成索引文件，提交给安卓系统。Gemini 收到用户指令，先查索引，找到匹配功能，在设备本地直接调用，全程不经过外部服务器。

谷歌把 AppFunctions 定义为 " 手机端的 MCP"。MCP 是 AI 圈的协议，解决 AI 模型如何连接外部工具的问题。AppFunctions 把这套逻辑搬进手机本地，App 主动开放接口，AI 按接口调用，有授权，有边界，有记录。

搭载该系统的三星 S26 展示了一个案例，用户对着 AI 说 " 找我家猫的照片 "，Gemini 就会调用三星相册的接口，照片直接出现在对话界面，用户没有打开任何 App。

我们用更常用的淘宝为例。如果淘宝接入 AppFunctions，开放 " 搜索商品 " 的接口。此时，用户对着 Gemini 说 " 帮我在淘宝找一双跑步鞋，预算 1000 以内 "，Gemini 就能直接调用淘宝的搜索接口拿回结果，在 AI 对话页面展示给用户，全程用户不需要打开淘宝。

淘宝也能控制哪些功能开放、哪些数据不对外暴露，权限边界由 App 自己划定。

但这么做限制也很明显，App 必须主动接入，目前支持的主要集中在日历、备忘录这几个类别。

所以谷歌同时推了 Intelligent UI Automation 作为补充，专门针对还没接入 AppFunctions 的 App。AI 通过模拟点击、滑动完成任务，开发者不需要改一行代码。目前在 S26 系列和 Pixel 10 上小范围测试，支持外卖、打车等少数场景。用户可以随时接管，遇到付款，Gemini 会先弹确认。

谷歌官方说 " 今年晚些时候分享更多细节 "。功能上线了，规范还没写完，边界在哪里谷歌自己也还在摸索。因此，这也就是中兴倪总所谓的三星 +Gemini 只完成了努比亚的局部能力。

字节：直接看屏幕，但被微信堵在门口

字节 + 努比亚的豆包手机，走的是另一条路，其底层是字节自研的 UI-TARS 模型。

工作方式很直观，截屏，截图输入视觉模型，模型分析屏幕上有什么，决定点哪里，通过安卓无障碍权限把指令发给手机。截图、分析、点击，循环，直到任务完成。不需要任何 App 配合，理论上能操作手机上所有应用。

同样以淘宝举例，豆包手机不需要淘宝授权，它能识别淘宝页面中每一个按钮是做什么的，点击哪个能实现什么功能。你让豆包手机搜索商品，它会像真人一样，点来点去，直到生成答案。

这一切都建立在 UI-TARS 模型的强大能力中，在 AndroidWorld 基准测试，UI-TARS 1.5 得了 64.2 分，GPT-4o 是 34.5 分。

首批 3 万台豆包手机曾经吵得火热，而今除了科技测评人，还有多少人在用？新技术会引发一时狂热，但热度散去大家才发现，很多底层问题都没解决。

实际使用中，微信、支付宝、淘宝、各类金融 App 会直接弹安全警告拦截操作。这些 App 的安全机制能识别出 " 有程序在模拟人点击 "，判定为异常。此外，豆包手机依赖的无障碍权限，设计初衷是帮助残障用户，AI 拿来批量操作 App，踩的是整个安卓生态的红线。

而且很多软件升级安全策略，UI 更新，都可能让豆包手机的一部分功能失效。

虽然，谷歌的 Intelligent UI Automation 和豆包手机在技术原理上差不多，都是看屏幕、模拟点击。但谷歌的方案有系统层背书，谁让安卓是他的。豆包走的是权限的灰色地带，没有这层信任基础。

动作相近，性质不同。

阿里：最安全，也最难

阿里的路线叫 A2A，Agent to Agent，智能体互联。春节期间，我们用千问点奶茶，操作起来和也挺像 AI 手机的，但还是有区别。

千问不看屏幕，也不碰手机系统权限，直接调用 App 的服务接口。用户说 " 帮我在饿了么订午饭，再用高德叫辆车去下午的会 "，千问把两个请求分别派发给饿了么智能体和高德智能体，各自完成，结果汇总返回。全程没有截图，没有模拟点击，数据在预设接口里流转，隐私风险几乎为零。

但前提是，这些操作都需要在阿里自己的生态里。淘宝、饿了么、高德、支付宝本来就是同一家公司，接口打通的谈判成本几乎不存在。

一旦脱离阿里生态，这些操作就行不通了。

让千问帮用户操作美团、抖音、滴滴、微信、小红书，需要这些公司主动开放接口。美团、字节、滴滴、腾讯、小红书一家一家谈下去，都需要时间，只不过随着随着各家都在探索和推出智能体，A2A 路线的上限，也会随着生态边界的拓宽不断变宽。

AI 手机到底长什么样？

三条路，三种下注逻辑。

字节押的是速度，靠通用性换先发，代价是和整个 App 生态的安全机制进行抗争。但好处是人们一提到 AI 手机，都会想到字节。

阿里押的是安全感，隐私风险最低，天花板也最清晰。

谷歌押的是规则，AppFunctions 开发者文档已经迭代到 alpha07 版本，每个 API 都有完整规范，慢但每一版都在扩大生态。

而且谷歌还有一张牌没打出来，苹果今年确认将用 Gemini 驱动下一代 Apple Intelligence。落地之后，Gemini 将同时成为安卓和 iOS 的 AI 底座，覆盖全球绝大多数手机用户。AppFunctions 的标准，就不只是安卓的规则，而是整个移动互联网的规则。

当 AI 成了用户和 App 之间的新一层，控制了这一层，就控制了下一代的流量入口。

三条路线都有各自的天花板，但更大的问题是：AI 手机的几个方案都还没跑通。

谷歌搞 AppFunctions，最终能走多远，得看有多少 App 愿意主动接入。目前最大的障碍就是开发者，现在支持的，也就 Uber、Grubhub 这几个。此外，国内的微信、美团、抖音，不会因为谷歌发了一套 API 就排队来接。

信任这关，更麻烦。AI 帮你点外卖，出错了顶多重来一单。AI 帮你转了账，发现转错了，这锅谁背？目前三条路线都没给出答案。就和自动驾驶一样，没有法律的背书，无论案例多光鲜都是自嗨。用户的信任是慢慢建起来的，但往往要出几次真实事故才会被认真对待。

更重要的是场景这关，说白了就是 AI 手机到底有什么用？现在演示的都是 " 找照片 "、" 订外卖 "、" 叫车 "，指令清晰，步骤固定，一气呵成。然而，真实生活不是这样的。" 帮我把上周和那谁的聊天方案整理一下，顺便把下周的会议改到周五 "，这种才是日常，没有一家现在能顺滑处理。

AI 手机卖出去是一回事，用户每天真的在用 AI 操作 App，是另一回事。

宙世代

一起剪

相关标签