钛媒体 4小时前
保守的谷歌,激进的豆包
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 略大参考,作者 | 高进,编辑 | 杨知潮

技术创新必须以尊重用户权益和遵守监管要求为前提。

时至今日,用户仍然不能使用谷歌自家的 AI 助手,调用谷歌邮箱发一封邮件。

和不久前发布的豆包手机助手相比,谷歌的 AI 功能实在太过 " 落后 "。毕竟在之前的用户实测里,它已经可以绕开 APP 界面,直接帮用户下单,还能自动回复微信消息。

但这不意味着谷歌的技术不如豆包,毕竟 AI 背后不止有技术,还有用户的安全和企业的责任。过于激进的方案,往往难以推进。

12 月 5 日,在经历微信、支付宝、淘宝、农业银行等多家 APP 的 " 拒绝登陆 " 之后,豆包手机助手发布关于调整 AI 操作手机能力的说明。

说明指出:

为了让技术发展、行业接受度和用户体验多方都能形成良性适配,我们计划在接下来的一段时间,在部分场景,对 AI 操作手机的能力做一些规范化调整。具体包括,但不限于进一步限制金融类应用的使用:银行、互联网支付等金融场景,直接关联用户的资金安全,虽然手机助手在敏感操作时都需要用户授权,但审慎起见,豆包手机助手也将暂时下线操作这类 APP 的能力。我们也会积极与相关厂商沟通,希望共同制定清晰、安全的 AI 操作行为准则。

和前两天更为强硬的辩驳声明相比,这份声明在姿态上已经柔软很多,声明主要说两点:一、我们对于有些限制类应用还是保持敬畏;二、我们愿意和大伙儿沟通,找到一个各方都能接受的行为标准。

总之,豆包降低了方案的激进程度。毕竟,此前的方案或许在一定程度上突破了技术边界,但也同时突破了传统的用户安全体系、监管体系、厂商合作模式的边界。

01 豆包的遭遇不是创新者困局?

全球 AI Agent 的发展如火如荼。自 2023 年 AutoGPT 开启智能体序幕以来,从个人助手到企业级解决方案,AI Agent 展现出前所未有的活力。微软、谷歌、亚马逊等科技巨头纷纷布局 AI/Agent 平台,在基础设施、多模态能力等方面各有优势。

豆包的方案术属于 GUI Agent 的技术路线,本身并不新奇。GUI Agent 是一种基于多模态视觉模型驱动的人工智能系统,能够自动推理并执行图形用户界面(GUI)交互,模拟人类用户的操作如点击、输入、拖拽等,以完成工作任务。

无独有偶,豆包手机助手发布两天前,大模型独角兽阶跃星辰开源了跟豆包手机助手同类型的 GUI Agent 技术——名为 GELab-Zero 的套组。

在全球范围内,GUI Agent 技术的应用一直较为谨慎。以苹果的 Siri 和谷歌的 Google Assistant 为例,这些主流的智能助手虽然能够通过语音指令完成部分操作,但它们严格遵循 API(应用程序编程接口)调用的方式,避免直接触碰应用程序的核心功能。这种做法既保证了用户隐私和数据安全,也避免了与应用程序开发者或监管机构的潜在冲突。

在国内,GUI Agent 技术的落地同样面临着严格的考验。百度、华为等厂商在推出各自的智能助手时,也选择了与应用程序开发者合作,通过 API 接口实现功能对接。这种方式虽然需要更多的沟通和协调,但能够确保技术的应用符合行业规范和监管要求。

然而,豆包手机助手却选择更为激进的路径,绕过微信、支付宝等主流 App 的安全体系,豆包试图通过用户授权直接操作这些应用程序的界面。这种激进的方案不仅引发了应用开发者和用户的不满,也暴露了 GUI Agent 技术在实际应用中可能存在的合规性和安全性问题。

02 为什么说豆包的方案是激进的

豆包的方案,不止是对互联网合作关系的挑战,它还忽视了现有的成熟互联网账号安全体系。

经过几十年的发展,互联网公司的账户安全体系设计可谓环环相扣、层层设防。以登录验证为例,有传统的密码验证,也有更为安全的双重验证,如短信验证码、指纹、面部识别等。还有权限控制机制,严格限制不同用户对数据的访问权限,防止未经授权的访问。反欺诈检测系统则能实时监测异常登录行为,如异地登录、频繁登录失败等,及时采取冻结账户等措施。

这些安全机制如果被绕开,存在风险。比如:如果绕过登录验证,攻击者就能获取用户账号,进而窃取用户隐私信息,如社交账号中的聊天记录、联系人信息,支付账户中的资金、交易记录等。绕开权限控制,可能导致数据被随意篡改或泄露,破坏数据的完整性与保密性。而跳过反欺诈检测,异常行为将难以被及时发现和处理。一旦发生安全问题,豆包将面临用户信任危机,甚至可能承担法律责任,毕竟用户是基于对豆包的信任才授权其操作。

豆包的方案之所以引发争议,核心还在于其忽略了互联网行业在账号安全和监管方面的 " 防护栏 "。微信、支付宝等 App 早已建立了严格的安全防护机制,防止第三方程序绕过其官方授权,直接操作用户的账号和数据。在金融支付领域,监管机构对数据安全和用户隐私的要求尤为严格。金融支付 App 通常需要通过多重身份验证和安全协议,确保用户操作的安全性。豆包试图通过用户授权直接跳过这些安全机制,这种做法不仅可能威胁到用户的账号安全,还可能违反相关法律法规。

此外,豆包的方案还涉及到一个关键问题:它是否能够接过所有 App 的平台责任,并满足监管需求?金融支付类 App 涉及用户的财产安全,一旦出现数据泄露或操作失误,责任归属将变得极其复杂。豆包作为第三方平台,是否具备足够的技术和能力来承担这些责任?就像自动驾驶机构,能否承担车辆行驶的全部安全责任?

如果答案存疑,豆包的方案就如同在现阶段推出 L5 全自动驾驶一样——还没有成熟的条件。

从全球范围来看,任何试图绕过应用开发者和监管机构的方案都难以获得广泛支持。过于激进的 GUI Agent 方案不仅可能威胁到用户的隐私和安全,还可能引发监管部门的审查和处罚。

03 走得稳一点

技术创新必须以尊重用户权益和遵守监管要求为前提。这不是保守,而是对用户的责任体现。

如何在维持目前的互联网安全体系基础上,手机智能助手等智能体之间可实现不同账户体系之间的互通,为用户带来更大价值?

谷歌早就做了示范:作为安卓系统中枢的谷歌助手(或 Gemini),在用户首次调用第三方应用时,会清晰列出它需要访问的用户数据和权限。用户必须主动登录 Google 账号并点击授权才能继续。

在涉及到用户隐私的应用,如邮箱时,谷歌表现得非常克制,Gemini 只有在用户请求时才会调用相关数据,且不会进行发布邮件等敏感行为。

图注:作为谷歌自家的 AI 助手,Gemini 发邮件没有任何技术门槛,但有些行为,是出于对用户的责任感。

国内厂商里,OPPO 和支付宝的合作也提供了参考。2025 年 10 月 17 日,在以 "AI,更近一步 " 为主题的 2024 OPPO 开发者大会上,支付宝发布了 AHA(Agent Hub Access)智能体互联协同解决方案。这一方案旨在通过安全可控的方式,实现智能助手与应用程序之间的高效协作。

AHA 解决方案的核心在于构建了一个智能体互联的枢纽。它能够将手机操作系统、手机厂商自研的 AI 大模型以及各类第三方应用服务紧密连接起来。在这一枢纽的作用下,AI 助手不再是孤立的个体,而是能够与各种应用进行智能交互的协同伙伴。比如用户想要订餐,不需要再单独打开外卖 App,只需向 AI 助手发出指令,助手就能通过 AHA 解决方案与外卖 App 进行交互,快速完成订餐流程。

AHA 解决方案在保障安全方面也下足了功夫。它遵循严格的安全标准和协议,确保用户数据在传输和存储过程中的安全性。在用户授权方面,采用了透明且明确的授权机制,让用户清楚地知道自己的数据将被用于哪些服务,充分尊重用户的知情权和选择权。

这一方案还具备很强的开放性和兼容性。它能够接入不同厂商的 AI 助手和各类应用,为整个 AI 助手行业提供了一个标准化的互联互通平台。这不仅有助于推动行业技术的创新发展,还能让更多的开发者参与到生态建设中。

今年工信部、信通院等机构也在积极推进国家多智能体互联的标准,工信部牵头的《人工智能 智能体互联》系列标准也已发布,蚂蚁集团做为核心参编方牵头编写,AHA 作为重要业界实践参考。

不可否认的是,未来,GUI Agent 技术将持续发展,豆包的方案不是第一个也不是最后一个方案,无论如何,AI 必须建立在对用户隐私、数据安全和行业监管的尊重之上。只有通过合规与合作的方式,才能真正实现技术的价值,为用户提供更优质的智能服务。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 微信 亚马逊 界面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论