之所以會想寫這個,首先是因為在知乎收到了這個推薦的問題,實際上不管是 AutoGLM 還是豆包 AI 手機,會在這個階段被第三方廠商抵制並不奇怪,比如微信和淘寶一直以來都很抵制這種外部自動化操作,而非這次中興的 AI 豆包手機出來才抵制,畢竟以前搞過微信自動化客服的應該都知道,一不小心就會被封號。

另外也是剛好看到, B 站的 UP 主老戴深入分析了豆包手機的內部工作機制的影片,影片介紹了從 AI 助手如何讀取螢幕、捕捉數據和模擬操作的真實流程,所以對於 AI 手機又有了個更深刻的認知,在這個基礎上,更不難理解為什麼 AI 手機這種自動化 Agent 會被第三方廠商抵制,推薦大家看原影片:b23.tv/pftlDX8。

那麼豆包的 AI 手機是怎麼工作的呢?實際上和大家想的可能不一樣,它並沒有使用無障礙服務(Accessibility Service),而是使用了更底層的實現方案:
豆包手機利用底層的系統權限,直接從 GPU 緩衝區獲取原始影像數據並注入輸入事件,而非依賴截屏或無障礙服務,此外手機還在一個獨立的虛擬螢幕中執行後台任務,並將影像低頻發送至雲端進行推理,雲端則返回操作指令。
在影片裡, UP 主通過深度拆解豆包手機,分析手機在系統層面的服務分工、數據抓取和模型推理路徑,例如aikernel被 UP 主推斷為手機端側 AI 的核心進程,內存佔用特性(Native堆高達160M)表明它可能是一個本地AI推理框架:

另外
aikernel異常高的Binder數量,證明有大量外部進程通過 RPC 調用它,進一步印證了其系統級服務的角色。
而autoaction是豆包手機 AI 自動操作的關鍵,這個 APK 權限允許直接從 GPU 渲染的圖形緩衝區讀取數據,而不是通過上層截圖:


而且目前看,豆包手機的 AI 能夠捕獲受保護的視頻輸出,這意味著它可以繞過銀行 App 等應用的反截圖/錄屏限制,因為很多銀行 App 很多是通過 DRM(數字版權管理)或應用內安全設置來防止截圖和錄屏:

另外,Agent 在操作手機過程也不是直接使用系統的 Accessibility Service,而是通過調用系統隱藏API injectInputEvent 來控制手機, AI 通過 INJECT_EVENTS 權限直接注入輸入事件來模擬螢幕點擊,權限高於無障礙 API,並且是系統簽名:


同時,豆包手機在執行自動操作時,會利用一個與物理螢幕解析度相同的“無頭”虛擬螢幕在後台運行,且擁有獨立的焦點,不影響用戶在前台的操作,這其實就是內存副螢幕的概念,虛擬螢幕的畫面由 GPU 合成後,對應的緩衝區信息會直接被autoaction消費,再次證實 AI 無需通過截圖 API 即可獲取螢幕內容:

最後,豆包手機在自動化操作時,會頻繁地(每3到5秒)與 obriccloud.com(字節的服務) 伺服器通訊,發送約 250K 的單幀圖片進行推理。
雲端在接收圖片後,會返回約 1K 的數據,內容是告訴手機下一步要執行的 7 種指令之一,如打開應用、點擊、輸入、滑動等等,整個自動化 Agent 的推理和路徑規劃主要在雲端完成,雲端思考後將執行步驟指令發回本地執行,本地任務很輕:


那麼,這整個過程你看下來有什麼感覺?如果你是第三方廠商,你會不會同樣抵制這種數據收集和處理的行為?特別是繞過現有大家對系統 API 的理解,這種操作途徑是否能被友商們接受?
所以目前的這種操作,被微信和淘寶抵制很正常,不管是隱私的邊界,還有安全操作的規範,用戶對於自己某個產品內容被收集的信息程度,這些都還處於蠻荒狀態,數據安全和隱私的邊界範圍還不可控,並且 Agent 的托管行為,也明顯侵犯到了友商們的利益鏈條。
就像是 UP 主說的,AI Agent 的出現將動搖移動互聯網的底層商業邏輯——注意力經濟,使“注意力”這一硬通貨的重要性降低,實際上換作另一個概念就是碎片化時間:
以前你的碎片化時間都是被各種 App 消費了,比如廣告和沉浸引導,但是 Agent 的出現,它明顯將這部分時間給托管了,那麼數據和時間都被 Agent 服務收集,對於友商們來說,不就是成了單純的功能性服務商了嗎?
另外,說實話像 AutoGLM 這種功能目前的支持,最大受益者不是用戶而是灰產,不管是用詐騙還是黃牛,他們都是這種自動化下的第一受益者,所以規範和監管,特別是安全和隱私條款是必須的,比如就像 UP 主說的:
豆包手機的 AI 在自動化操作過程中,哪些數據會被發送到雲端伺服器?
很多人對於 agent 和自動化能力的範疇並不理解,它們可以獲取隱私的邊界是什麼,安全操作的規範是什麼,這些都是需要支持和統一邊界。
比如 Android 16 實際上官方是有規劃 Appfunction API 的,它的目的是讓應用只公布自己開放給 AI 的能力,這樣也許邊界感更強。
當然,從歷史的角度看,Agent 手機勢不可擋,就像谷歌自己未來新的 Android PC 系統 Aluminium OS 也是會結合 Gemini Agent 等特點,這是歷史進程的必然,但是這個過程中,如何統一規範和監管這是很重要的過程,畢竟 AI 的效應和能力,可比之前更強大,就像 UP 主說的,新的 AI 寡頭可能會形成更中心化、更強勢的權力,且馬太效應更明顯。
那麼,你覺得未來誰家的 Agent 設備會成為新時代的寡頭?或者不是手機而是眼鏡?