🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

豆包手機為什麼會被其他廠商抵制?它的工作原理是什麼?

之所以會想寫這個,首先是因為在知乎收到了這個推薦的問題,實際上不管是 AutoGLM 還是豆包 AI 手機,會在這個階段被第三方廠商抵制並不奇怪,比如微信和淘寶一直以來都很抵制這種外部自動化操作,而非這次中興的 AI 豆包手機出來才抵制,畢竟以前搞過微信自動化客服的應該都知道,一不小心就會被封號。

image-20251212081056229

另外也是剛好看到, B 站的 UP 主老戴深入分析了豆包手機的內部工作機制的影片,影片介紹了從 AI 助手如何讀取螢幕、捕捉數據和模擬操作的真實流程,所以對於 AI 手機又有了個更深刻的認知,在這個基礎上,更不難理解為什麼 AI 手機這種自動化 Agent 會被第三方廠商抵制,推薦大家看原影片:b23.tv/pftlDX8

image

那麼豆包的 AI 手機是怎麼工作的呢?實際上和大家想的可能不一樣,它並沒有使用無障礙服務(Accessibility Service),而是使用了更底層的實現方案

豆包手機利用底層的系統權限,直接從 GPU 緩衝區獲取原始影像數據並注入輸入事件,而非依賴截屏或無障礙服務,此外手機還在一個獨立的虛擬螢幕中執行後台任務,並將影像低頻發送至雲端進行推理,雲端則返回操作指令。

在影片裡, UP 主通過深度拆解豆包手機,分析手機在系統層面的服務分工、數據抓取和模型推理路徑,例如aikernel被 UP 主推斷為手機端側 AI 的核心進程,內存佔用特性(Native堆高達160M)表明它可能是一個本地AI推理框架:

image

另外aikernel異常高的Binder數量,證明有大量外部進程通過 RPC 調用它,進一步印證了其系統級服務的角色。

autoaction是豆包手機 AI 自動操作的關鍵,這個 APK 權限允許直接從 GPU 渲染的圖形緩衝區讀取數據,而不是通過上層截圖:

image
image

而且目前看,豆包手機的 AI 能夠捕獲受保護的視頻輸出,這意味著它可以繞過銀行 App 等應用的反截圖/錄屏限制,因為很多銀行 App 很多是通過 DRM(數字版權管理)或應用內安全設置來防止截圖和錄屏:

image

另外,Agent 在操作手機過程也不是直接使用系統的 Accessibility Service,而是通過調用系統隱藏API injectInputEvent 來控制手機, AI 通過 INJECT_EVENTS 權限直接注入輸入事件來模擬螢幕點擊,權限高於無障礙 API,並且是系統簽名:

image
image

同時,豆包手機在執行自動操作時,會利用一個與物理螢幕解析度相同的“無頭”虛擬螢幕在後台運行,且擁有獨立的焦點,不影響用戶在前台的操作,這其實就是內存副螢幕的概念,虛擬螢幕的畫面由 GPU 合成後,對應的緩衝區信息會直接被autoaction消費,再次證實 AI 無需通過截圖 API 即可獲取螢幕內容:

image-20251212085211526

最後,豆包手機在自動化操作時,會頻繁地(每3到5秒)與 obriccloud.com(字節的服務) 伺服器通訊,發送約 250K 的單幀圖片進行推理。

雲端在接收圖片後,會返回約 1K 的數據,內容是告訴手機下一步要執行的 7 種指令之一,如打開應用、點擊、輸入、滑動等等,整個自動化 Agent 的推理和路徑規劃主要在雲端完成,雲端思考後將執行步驟指令發回本地執行,本地任務很輕:

image
image

那麼,這整個過程你看下來有什麼感覺?如果你是第三方廠商,你會不會同樣抵制這種數據收集和處理的行為?特別是繞過現有大家對系統 API 的理解,這種操作途徑是否能被友商們接受?

所以目前的這種操作,被微信和淘寶抵制很正常,不管是隱私的邊界,還有安全操作的規範,用戶對於自己某個產品內容被收集的信息程度,這些都還處於蠻荒狀態,數據安全和隱私的邊界範圍還不可控,並且 Agent 的托管行為,也明顯侵犯到了友商們的利益鏈條

就像是 UP 主說的,AI Agent 的出現將動搖移動互聯網的底層商業邏輯——注意力經濟,使“注意力”這一硬通貨的重要性降低,實際上換作另一個概念就是碎片化時間

以前你的碎片化時間都是被各種 App 消費了,比如廣告和沉浸引導,但是 Agent 的出現,它明顯將這部分時間給托管了,那麼數據和時間都被 Agent 服務收集,對於友商們來說,不就是成了單純的功能性服務商了嗎?

另外,說實話像 AutoGLM 這種功能目前的支持,最大受益者不是用戶而是灰產,不管是用詐騙還是黃牛,他們都是這種自動化下的第一受益者,所以規範和監管,特別是安全和隱私條款是必須的,比如就像 UP 主說的:

豆包手機的 AI 在自動化操作過程中,哪些數據會被發送到雲端伺服器?

很多人對於 agent 和自動化能力的範疇並不理解,它們可以獲取隱私的邊界是什麼,安全操作的規範是什麼,這些都是需要支持和統一邊界。

比如 Android 16 實際上官方是有規劃 Appfunction API 的,它的目的是讓應用只公布自己開放給 AI 的能力,這樣也許邊界感更強。

當然,從歷史的角度看,Agent 手機勢不可擋,就像谷歌自己未來新的 Android PC 系統 Aluminium OS 也是會結合 Gemini Agent 等特點,這是歷史進程的必然,但是這個過程中,如何統一規範和監管這是很重要的過程,畢竟 AI 的效應和能力,可比之前更強大,就像 UP 主說的,新的 AI 寡頭可能會形成更中心化、更強勢的權力,且馬太效應更明顯

那麼,你覺得未來誰家的 Agent 設備會成為新時代的寡頭?或者不是手機而是眼鏡?

影片連結

b23.tv/pftlDX8


原文出處:https://juejin.cn/post/7582469532326920228


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝16   💬10   ❤️5
421
🥈
我愛JS
📝2   💬8   ❤️4
94
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付