
文 | 山上财富牛,作者 | 薛星星,编辑 | 蒋浇
手机厂商们在发布会上让手机助手点上几百份咖啡外卖、发红包已经不是新鲜事儿了,但字节跳动上周发布的“豆包手机助手”还是在互联网上掀起了不小的波澜。部分原因在于豆包对外展现的模型理解能力更强,但更多或许还是来自于市场对于字节争夺入口的恐惧。
考虑到首发机型的备货量和技术的完善度,所谓的“豆包手机”暂时不会对移动互联网生态产生实质性的影响。搭载了豆包手机助手的深度定制机努比亚 M153 限量发售,售价 3499 元,定位中端。外界传言其首发备货量约为 3 万台,且不会补货。
这款手机并不是一个面向普通消费者的成熟硬件产品。豆包手机助手团队特意强调,该机型“只是一款方便大家体验豆包手机助手使用的工程样机”,中兴商城页面也显示,“仅面向需要体验豆包手机助手的行业人士,不承诺成熟产品的功能完善度,普通消费者请务必谨慎选择”。

中兴商城页面
上周外界对于豆包手机助手的讨论更多围绕各大互联网公司相继“封禁”豆包展开。动作最快的是字节跳动的直接竞对腾讯,使用豆包手机助手会触发微信的风控策略,导致用户微信账号强制退出无法登录。
紧接着,包括各大银行、支付宝乃至淘宝、拼多多等电商应用、王者荣耀等手游都相继阻止用户使用豆包手机助手进行操作。豆包于上周五对外声明,表示将调整并限制豆包手机助手的使用范围,包括但不限于限制刷分/刷激励等应用场景、金融类应用、游戏类使用场景等。
看热闹不嫌事儿大的科技媒体们继续发挥他们渲染情绪的祖传艺能,对外强调又一轮互联网生态入口争夺大战开始。有了大模型的加持之后,大家的讨论明显都“深入”一些,动不动就要强调本质问题,上升到战略、生态、下一代交互的地位上。这样的论断过去在智能音箱、小程序乃至区块链等都屡见不鲜,不免有些厌烦,让人想起巴黎报纸的拿破仑笑话。
抛去这些宏大叙事的论调,各大互联网公司当前封禁豆包手机助手的直接原因或许只有一条:禁止外挂代替用户操作,无论它是否由 AI 还是脚本操作。微信、支付宝乃至银行等涉及用户隐私和金融风险的应用更是严厉禁止。过去,哪怕只是一个简单帮助用户去除应用开屏广告的“李跳跳”,都收到过互联网大厂的律师函财富牛,不得不无限期暂停更新。
豆包团队在限制豆包手机助手的声明中同时强调,他们正积极寻求与各应用厂商的深度沟通,希望推动形成更加清晰、可预期的规则,“避免用一刀切的方式否定用户合理使用 AI 的权利。”
这话略显偏颇。好似豆包手机助手才是帮助用户的屠龙少年,而其它互联网厂商则是横亘 AI 未来面前的恶龙形象。姑且不说抖音会不会禁止其他 AI 手机助手获取并操作用户的聊天信息、上传视频乃至抖音商城、钱包等页面,关键在于当前豆包手机助手的 GUI 交互手段,很难说就是未来手机 AI 的发展方向。
已经有不少媒体指出,部分手机或大模型厂商早在豆包之前就推出过类似的 AI 手机助手功能,比如荣耀的 YOYO 助手或者智谱的 AutoGLM。它们的技术原理也都差不多,通过获取系统底层权限,AI 读取手机屏幕信息并代替用户模拟点击。只是豆包展现的模型理解能力更强、交互也更流畅。
这样的做的好处是可以不需要再一对一地与应用厂商沟通,不用再费心建立生态,只靠自家的技术优化就能打通当前的移动互联网应用。过去 AI 厂商在浏览器层面推出的 AI Agent 功能与此类似,都是代替用户模拟操作网络页面。
但风险在于,手机是一个比浏览器拥有隐私更多、风险也更大的场景。一个简单的例证,浏览器内的 Agent 不需要额外获取更多系统权限,但类似于豆包手机助手则需要获取安卓的 INJECT_EVENTS 权限。
INJECT_EVENTS 权限是安卓系统的底层权限,可以直接向设备发送原始信号,后台模拟用户点击。它早在安卓系统诞生之初就已经存在,此前更多被手机厂商用作新机上市前的测试阶段。
开放这一权限,意味着你完全让渡了手机的控制权,风险极大,因此它只向系统级应用开放,第三方应用无法获取。苹果也没有为 iOS 系统开放类似权限。

豆包手机助手声明财富牛
更关键的是,无论你是否打开手机,理论上被授予这一权限的应用都可以在后台操作手机。比如豆包团队在宣传片中展示的助手直接打开特斯拉前备箱、查询播客节目、预定餐厅等功能,人物只通过耳机下达指令,而无需拿出手机。
目前,手机行业中也只有国内安卓厂商在尝试类似 GUI Agent 的道路,Google、苹果都没有在自家手机中使用类似的技术路线。Google 今年发布的 Pixel 10 系列虽然也强调 AI 的系统级能力,但更多是通过 API 接入和端侧 AI 来打通用户信息和自家应用生态。纵观过去 Google 的手机 AI 路线,也从未使用系统的 INJECT_EVENTS 权限。
事实上,Google 在今年发布的 Android 16 中已经在尝试引入一个名为 App Functions 的新接口,允许应用将自己的关键功能比如订餐、下单、发消息等能力提供给系统,系统助手可以调用这些功能代替用户操作,实现跨应用交互。
苹果及华为也都在 iOS 系统和鸿蒙系统内加入了类似能力,iOS 内称作 App Intents,鸿蒙系统内则称作意图框架。比如华为就在鸿蒙开发者文档中介绍,银行类应用接入意图框架服务之后,用户可以直接通过小艺发起转账交易。


华为鸿蒙开发者文档介绍意图框架服务
换句话说,和 GUI Agent 需要获取系统底层权限,识别屏幕信息并代替用户模拟点击等相比,API Agent 的接入方式才更为安全也更可控,隐私泄露风险也更小。
OpenAI 今年开始尝试通过 ChatGPT 打通第三方应用生态,同样是通过 MCP 等协议来接入外部应用。即便在介绍 ChatGPT Atlas 浏览器的代理功能时,OpenAI 也格外强调其安全风险,“用户仍应保持警惕并监控 ChatGPT 代理的操作行为。”
更直接点说,GUI Agent 的路线更像是当前 AI 生态尚不完善时的折衷产物。AI 与应用的交互完全可以靠代码或 API 的方式交流,现在则是模仿人来读取屏幕、模拟点击。当下通过获取手机最高权限来实现 AI 模拟交互,几乎可以用“高射炮打蚊子”来形容。
当然,我们并不是在苛责或者批评豆包手机助手。国内的 AI 应用探索一直跑在全球前列,豆包所展现的一些系统级 AI 能力确实也带给市场不少惊喜。
但它是建立在完全让渡用户隐私和系统操作的基础上——比如要读取你的微信聊天记录和联系人信息,目的仅仅只是为了搞清楚你昨天和朋友定的餐厅在哪里,又或者只是为了比较一下外卖的价格。就像豆包手机团队发布的那条宣传视频下,排名第一的评论说,“真的没人在乎个人信息安全吗?”

豆包手机助手视频号的评论
暂且忘掉豆包团队在声明中强调的对个人隐私严格保护、所有权限都是在用户授权下才获取的说法。我们并不是说豆包不注重隐私保护,更多只是强调其风险问题。科技公司们总有各式各样的法务条款来规避风险,而不用承担责任。
监管往往滞后于技术的发展。移动互联网时代狂奔十多年,苹果和安卓厂商们才在 2020 年前后加入了更多对应用调用系统权限的限制和披露。这时,人们才惊讶应用们会如此频繁地调用地理位置、读取剪切板、获取通讯录、相册等敏感信息,目的可能仅仅只是为了几个微不足道的小功能。一些应用甚至会在几分钟内发起上千次权限调用申请,国内外大厂无一幸免。
过去几天,也有不少手机厂商人士就豆包手机助手对外发声,或附和表态或解释技术原理。手机厂商们和豆包面临的困境是类似的,它们很难在短时间内就构建起一个 AI 与应用交互的生态,也无法打通国内封闭割裂的移动互联网壁垒,因而只能通过粗暴的方式来强行推进 AI 的手机变革。
阿里集团 CEO 吴泳铭之前说,人们对新技术革命,往往对短期高估,又对长期低估,但新技术革命会在人们的怀疑中成长,让很多人在迟疑中错过。
人类对于新技术的适应能力或许也远超自身的想象。现在已经没有人出门再带现金了,也很少见到人在路边招手扬车。无论如何,AI 对于手机的改造已经开始,曾经封闭的移动互联网生态也必须要正视 AI 的介入。
启泰网配资提示:文章来自网络,不代表本站观点。