
智东西
作者 | 陈骏达
编辑 | 云鹏
智东西 12 月 8 日报道,上周," 豆包手机助手 " 一跃成为 AI 圈与手机圈的年度热点,热度与争议齐飞。我们抢在首批样机售罄前,自费入手了一台搭载豆包手机助手的努比亚 M153 工程机,进行了 3 天的沉浸式体验,对这其中的争议和真实使用体验有了更深的感受。
豆包手机助手确实能 " 替我操作手机 ",如点外卖、开空调、改设置、记账等,极大地便利了生活;但我们也能感觉到,它很容易卡在权限或 App 的限制上,能力受外部生态的制约很大。
如果把这款 AI 手机与当下所有主流智能手机相比,其最大的区别就是,M153 中的 AI 不再是一个附着在系统里的 "AI 功能 ",而像是试图接管整个交互入口的 " 系统级智能 ",与 AI 交互过程中,App 本身已经隐于后台,点开 App 几乎成为可选项。
而过去一周的争议,也正集中在这一点。以微信(现已恢复登录,不可用 AI 操作)、支付宝(无法登录)、美团(不可用 AI 操作)为代表的几个头部 App 陆续限制在该机型上的登录与操作,关于权限、安全、生态秩序的讨论层出不穷。锤子手机创始人罗永浩直呼这是场拦不住的 " 技术革命 ",360 创始人兼 CEO 则形容豆包 " 抢走所有手机的灵魂 "。
字节连发多封公开信,一方面自行限制了豆包手机助手的部分能力,另一方面呼吁应用厂商避免用一刀切的方式否定用户合理使用 AI 的权利。

那么,在真实使用中,它到底能做到哪些事?又在哪些环节面临阻力?在体验结束后,我们最终归纳出五个关键要点:
1、豆包可能真的要成 " 操作系统 " 了:无论是手机背部的 "POWERED BY DOUBAO" 字样,还是还是系统内随处可见的豆包深度嵌入式入口,都让人感觉它已不再是传统意义上的手机助手,而是在向 "AI 主导的手机操作系统 " 形态迈进。
2、" 操作手机 Pro" 模式是豆包手机助手的差异化优势:在该模式下,豆包手机助手不仅能模拟点击操作手机,还能使用全部本地数据,并主动进行深度推理、多轮搜索和工具调用,可完成长耗时、高复杂度的任务。
3、影响豆包手机助手能力的,不只是技术本身:虽然豆包手机助手已获得用户和手机厂商(努比亚)的授权,但随着体验的深入,我们见证了其能力遭到各大 App 的风险管控的限制。从某种意义上来说,应用厂商对豆包手机助手的接纳程度,可能是比豆包本身技术能力还要大的挑战。
4、豆包手机助手的 " 大脑 ",有时也会成为累赘:在某些简单任务上手机控制任务上,豆包手机助手可能会过度思考,将简单的任务复杂化。
5、现阶段,这款手机确实不是面向普通消费者的:字节已经多次强调这是一个技术预览版产品,豆包手机助手仍有部分功能尚未开放,与各大应用厂商的合作仍在洽谈中,系统本身仍有不完善之处。
一、搭载 " 豆包智能 ",系统锤子味儿明显
在购买界面中的背部外观图上,我们能看到 M153 相机 Deco 右下角有一串模糊的英文单词。当我们拿到 M153 真机后,能清晰地看到这些字样的内容:"POWERED BY DOUBAO。"

M153 真机实拍(图源:智东西)
这让人不禁联想起鸿蒙设备上的类似字样:"POWERED BY HARMONY OS。"

M153 搭载的系统是 Obric UI,而不是努比亚的星云 OS。此前,数码博主 "wuxianlin" 在 Obric UI 的系统包内部发现了许多锤子科技的遗留字样,比如 smartisan、smartisanos 等。我们也看到,豆包手机内置了 " 米店 "、" 被禁忌的游戏 " 等铃声,而这些铃声都是锤子手机的经典铃声。

Obric UI 的系统包内部发现了许多锤子科技的遗留字样(来源:微博用户 wuxianlin)
系统的 UI 也有很明显的 " 锤子味儿 ",下图左侧是锤子手机的 UI,右侧是 M153 的 UI,系统自带的电话、浏览器的 logo 几乎像素级复刻。

系统设置中,AI 相关功能的设置入口被称为 " 豆包智能 "。在豆包智能中,用户可以自定义手机左侧 AI 唤醒按键的功能,比如打开对话框、触发豆包视频通话等等。
豆包设置则提供了丰富的自定义选项,用户可以在该页面录制声纹,录制后豆包就会 " 认得 " 你的声音,其他人都无法唤醒它。

一个特别实用的功能是 " 靠近直说 ",开启后,用户只要把手机拿近一些,无需喊出 " 豆包豆包 ",就能直接触发手机助手。
为了让豆包更懂用户,我们还可以选择性地开启 " 全局记忆 " 功能。开启后,豆包手机助手会主动记忆用户的相关信息,包括证件、人际关系、地址、纪念日、个人信息、选择偏好、中长期个人目标等等。

这些记忆主要是由用户触发的,在任意界面换出助手,说出 " 记一下 ……" 就可以。在特定场景,豆包手机助手还会自动记忆,比如当用户收藏特定内容时。
豆包手机助手默认安装了豆包 App,不过这和目前其他用户能从应用商店下载的豆包 App 不一样,而这台工程样机也不支持安装市面上的豆包 App。
这个 App 可以理解为豆包智能的超级入口,打开后,可以看到输入框上方提供了海量 AI 功能,包括操作手机、复杂任务、深度思考、打电话、AI 创作、视频通话、录音纪要、AI 播客等。其中,操作手机、复杂任务等高级功能是公版豆包 App 中没有的。

其实,M153 搭载的系统和系统应用还有许多缺失和有待完善的功能,比如没有夜间模式,用户无法在相册里选中多张图片进行拼图,相机的拍照效果也有待优化。不过,作为一个豆包手机助手的技术预览版,这些都是可以理解的。
二、具备两档 " 操作手机 " 能力,Pro 版本帮你一次规划完整行程
豆包手机助手的最大亮点,就是其直接操作设备的能力。豆包手机助手将这一能力分为两档," 操作手机 " 与 " 操作手机 Pro"。
" 操作手机 " 可以使用模拟点击的方式来帮你操作手机上的各类应用,完成任务。
比如,我们可以让豆包手机助手打开汽车充电 App,查看充电记录, 并告知用户。
也可以让豆包手机助手帮我们把空调给打开。

这一功能的触发是通过语义实现的,也就是说,这里还涉及一个豆包自主判断的过程。有时当我们说出一些指令时,豆包并不一定能反应过来需要操作手机。但如果用户明确说出 " 帮我操作手机 ",则会 100% 通过操作手机完成任务。
豆包手机助手操作应用时,会在顶部状态栏胶囊中显示,点击后可以切换到 AI 正在操作的虚拟屏。屏幕边缘会有粉红色光晕,用户手动接管操作后,屏幕边缘光晕消失,但屏幕边缘仍有边框,代表 AI 任务还在进行中,只是临时被接管。

操作过程中,用户可以通过补充按钮输入更多信息,也可以直接选择接管,进行特定操作,然后再把主动权还给它。
当遇到问题或者需要用户确认、选择或者给予特定权限时,豆包手机助手会主动提示用户接管。比如,当用它点外卖时,它会在阅读菜单后询问用户具体要哪个餐。最后,我们选择接管,因为担心豆包操作支付宝导致封号。
用豆包手机助手点外卖,经 6 倍速处理(图源:智东西)
" 操作手机 Pro" 功能则在使用手机应用的基础上,加入了更多工具、使用联网搜索等,获得最新信息和用户的个人数据,从而完成更为复杂的任务。" 操作手机 Pro" 的耗时较长,往往能达到五六分钟。
要进入这一功能,用户需要在助手底部的快捷按钮上找到操作手机按钮,然后手动切换到 Pro 模式。

由于 " 操作手机 Pro" 的功能往往涉及多个应用,且目前用豆包操作这些应用可能会导致封号等问题,保险起见,我们暂时未对 " 操作手机 Pro" 的功能进行实测。
不过,豆包手机助手使用指南里提供了一些真实案例,可以让我们感受一下这些能力。
例如,豆包手机助手可以帮用户进行本地生活规划,自己下载购票软件买电影票,查询场次,查询打车记录,记录打车价格,然后给用户汇报这趟行程预计的总花费是多少。
画面经 8 倍速处理
此外,豆包手机助手也可以凭借 " 操作手机 Pro" 能力进行多平台比价、帮用户退货并发送取件码、把本周花销记录到备忘录里等操作。
从我们这两天的实际体验来看,豆包手机助手操作手机的能力要超过目前市面上大部分手机助手。豆包的这些能力一部分来自模型自身的 GUI 能力,但也与其更高的权限分不开干系——操作手机时,它本质上就是用户授意的全权代表。
不过,这一能力也意味着豆包手机助手可以直接以用户的权限完成一些高风险任务,而大部分用户在给予手机助手权限时,可能并未完全理解背后的安全风险。
如何确保豆包手机助手不会越界,并向各大应用厂商和用户证明这一点,赢取信任,可能是豆包手机助手未来需要持续思考的问题。
三、支持主流手机控制功能,AI 录音、识屏、修图、搜索全都配齐
抛开手机操作之外,要成为一款合格的手机助手,豆包手机助手也需要完成一些基础的手机控制功能。豆包手机助手的使用指南里列出了其目前支持的所有手机控制功能:

我们在实测中发现,用豆包手机助手完成上述操作的速度很快,基本和其他手机助手体验一致。不过,由于有了 AI 大模型作为大脑,再加上操作手机的能力,豆包还可以完成一些更为复杂的操作。
比如,当我们提出想要开启手机的所有震动时(包括虚拟按键、输入法、来电提醒和应用内震动),大多数手机助手通常只能开启系统设置中的震动选项,而对于其他部分往往无能为力。
但豆包手机助手可以在听懂整体需求后,一次性帮全部搞定。它的操作逻辑其实和用户其实是一致的——打开设置,靠 " 阅读 " 屏幕信息一个一个寻找震动相关选项,即便没有 " 震动 " 二字,而是以 " 触感反馈 " 等字样描述的功能,它也可以精准定位并开启。
豆包手机助手连续开启多个震动选项(图源:智东西)
虽然操作速度就像开了慢动作,但其实在日常使用过程中,这一速度其实并不会过多地影响用户体验。豆包手机助手对设备的所有操作都是隐藏在后台的,如果不是为了录制操作过程用于演示,完全可以在交代任务后去刷刷社交媒体,看看视频,而任务会在后台自动完成,近乎无感。
但我们也发现,对于一些比较简单的任务,豆包手机助手并不是总能快速通过安卓系统的页面内跳转协议 URL Scheme 完成,而是需要在系统内反复摸索,就像第一次上手使用的用户一样。
目前,大部分智能手机也都能提供一些基础的 AI 服务,豆包手机助手和 Obric UI 在这方面基本覆盖了现有的主流功能。
屏幕问答功能支持手动添加屏幕截图和语义问答,可以直接按住 AI 键直接向豆包手机助手提问与画面相关的问题。

AI 修图功能也可以直接通过激活 AI 助手实现,激活后选中 AI 修图按键就能把原图添加到豆包手机助手,然后用自然语言完成 AI 修图。目前,这一功能使用的是最新的 Seedream 4.5 模型。

智能录音功能则支持将通话过程、录音音频内容和部分应用内的语音内容转为文字,并形成摘要。应用录音目前支持飞书、微信、qq、钉钉、腾讯会议、企业微信。
这一功能可以默认开启,自动录音,对于经常需要工作留痕的用户来说还是比较实用的。

智能录音功能(图源:智东西)
豆包手机助手可以用来进行本地数据的搜索和问答,范围包括联系人、短信、通话记录、相册照片、便签、录音、日历等等,用户的全局记忆也可以被搜索到。

官方本地数据搜索问答案例
不过,我们在实测中发现这一功能不是特别稳定,并不总能准确地找到对应信息。

四、发布隐私白皮书,端云 AI 协作提供安全保障
豆包手机助手背后,到底使用了什么模型、哪些技术,更重要的时,安全究竟靠什么保障?字节跳动在《⾖包⼿机助⼿隐私安全白皮书》里其实透露了不少细节。
豆包手机助手采用了端云 AI 安全防护体系为架构基础,结合字节的自研大模型,以实现智能 AI 业务。

对于本地模型,豆包手机助手采取了基于 TEE(可信执行环境)和硬件加密的方案,从预置、分发到存储,模型始终处于加密状态,密钥由 TEE 保护。
在系统完整性得到确认后,模型才被解密加载,防止特权攻击导致的数据泄露。在处理处理高敏感数据时,豆包手机助手主要依赖本地 AI 模型,如 OCR、文本向量化、命名实体识别等模型,实现了 " 数据不离端 "。

豆包手机助手在云端 AI 隐私安全方面实现了严格的数据隔离,用户敏感数据不会用于模型训练,并遵循最小权限原则进行精细的权限管控。
所有数据在传输、存储及日志环节均实施全链路加密或脱敏,更引入机密计算容器实现内存级明文数据隔离,属于云端数据保护的顶级实践。同时,平台还部署了专用的模型安全防护服务,主动防范提示词攻击、数据泄露等大模型新型风险。
至于 AI 应用的安全性,豆包手机助手的思路就是 " 找用户确认 "。豆包手机助手规定了六类必须需要找用户二次确认才能接入并执行的任务,分别为权限与隐私管理、⾦融与交易操作、系统与设备控制、法律与合规要求相关操作、⾼⻛险不可逆操作、健康与医疗数据处理。
结语:模型玩家入局 AI 手机,或成一大市场变量
字节此次联合努比亚推出豆包手机助手技术预览版,展示了模型玩家赋能手机厂商的潜力。豆包系列模型在国内的性能处于前列,性价比优势明显,又有豆包等国民级 AI 应用的验证,其入局标志着 AI 手机生态,从纯粹由手机厂商主导向模型厂商深度参与的未来迈出的一步。
未来,手机厂商与 AI 模型商之间的竞合关系或许会越发复杂,而字节作为重要的 " 变量 ",或将为市场带来新的技术路径、合作模式与差异化体验,搅动 AI 手机这一市场,也加速 AI 手机的实现和落地。模型能力、生态整合与用户体验,有望共同定义下一代智能终端。


登录后才可以发布评论哦
打开小程序可以发布评论哦