小編精選 - 技術文章翻譯 · 12月19日

豆包手機為什麼會被其他廠商抵制？它的工作原理是什麼？

之所以會想寫這個，首先是因為在知乎收到了這個推薦的問題，實際上不管是 AutoGLM 還是豆包 AI 手機，會在這個階段被第三方廠商抵制並不奇怪，比如微信和淘寶一直以來都很抵制這種外部自動化操作，而非這次中興的 AI 豆包手機出來才抵制，畢竟以前搞過微信自動化客服的應該都知道，一不小心就會被封號。

另外也是剛好看到， B 站的 UP 主老戴深入分析了豆包手機的內部工作機制的影片，影片介紹了從 AI 助手如何讀取螢幕、捕捉數據和模擬操作的真實流程，所以對於 AI 手機又有了個更深刻的認知，在這個基礎上，更不難理解為什麼 AI 手機這種自動化 Agent 會被第三方廠商抵制，推薦大家看原影片：b23.tv/pftlDX8。

那麼豆包的 AI 手機是怎麼工作的呢？實際上和大家想的可能不一樣，它並沒有使用無障礙服務（Accessibility Service），而是使用了更底層的實現方案：

豆包手機利用底層的系統權限，直接從 GPU 緩衝區獲取原始影像數據並注入輸入事件，而非依賴截屏或無障礙服務，此外手機還在一個獨立的虛擬螢幕中執行後台任務，並將影像低頻發送至雲端進行推理，雲端則返回操作指令。

在影片裡， UP 主通過深度拆解豆包手機，分析手機在系統層面的服務分工、數據抓取和模型推理路徑，例如aikernel被 UP 主推斷為手機端側 AI 的核心進程，內存佔用特性（Native堆高達160M）表明它可能是一個本地AI推理框架：

另外aikernel異常高的Binder數量，證明有大量外部進程通過 RPC 調用它，進一步印證了其系統級服務的角色。

而autoaction是豆包手機 AI 自動操作的關鍵，這個 APK 權限允許直接從 GPU 渲染的圖形緩衝區讀取數據，而不是通過上層截圖：

而且目前看，豆包手機的 AI 能夠捕獲受保護的視頻輸出，這意味著它可以繞過銀行 App 等應用的反截圖/錄屏限制，因為很多銀行 App 很多是通過 DRM（數字版權管理）或應用內安全設置來防止截圖和錄屏：

另外，Agent 在操作手機過程也不是直接使用系統的 Accessibility Service，而是通過調用系統隱藏API injectInputEvent 來控制手機， AI 通過 INJECT_EVENTS 權限直接注入輸入事件來模擬螢幕點擊，權限高於無障礙 API，並且是系統簽名：

同時，豆包手機在執行自動操作時，會利用一個與物理螢幕解析度相同的“無頭”虛擬螢幕在後台運行，且擁有獨立的焦點，不影響用戶在前台的操作，這其實就是內存副螢幕的概念，虛擬螢幕的畫面由 GPU 合成後，對應的緩衝區信息會直接被autoaction消費，再次證實 AI 無需通過截圖 API 即可獲取螢幕內容：

最後，豆包手機在自動化操作時，會頻繁地（每3到5秒）與 obriccloud.com（字節的服務）伺服器通訊，發送約 250K 的單幀圖片進行推理。

雲端在接收圖片後，會返回約 1K 的數據，內容是告訴手機下一步要執行的 7 種指令之一，如打開應用、點擊、輸入、滑動等等，整個自動化 Agent 的推理和路徑規劃主要在雲端完成，雲端思考後將執行步驟指令發回本地執行，本地任務很輕：

那麼，這整個過程你看下來有什麼感覺？如果你是第三方廠商，你會不會同樣抵制這種數據收集和處理的行為？特別是繞過現有大家對系統 API 的理解，這種操作途徑是否能被友商們接受？

所以目前的這種操作，被微信和淘寶抵制很正常，不管是隱私的邊界，還有安全操作的規範，用戶對於自己某個產品內容被收集的信息程度，這些都還處於蠻荒狀態，數據安全和隱私的邊界範圍還不可控，並且 Agent 的托管行為，也明顯侵犯到了友商們的利益鏈條。

就像是 UP 主說的，AI Agent 的出現將動搖移動互聯網的底層商業邏輯——注意力經濟，使“注意力”這一硬通貨的重要性降低，實際上換作另一個概念就是碎片化時間：

以前你的碎片化時間都是被各種 App 消費了，比如廣告和沉浸引導，但是 Agent 的出現，它明顯將這部分時間給托管了，那麼數據和時間都被 Agent 服務收集，對於友商們來說，不就是成了單純的功能性服務商了嗎？

另外，說實話像 AutoGLM 這種功能目前的支持，最大受益者不是用戶而是灰產，不管是用詐騙還是黃牛，他們都是這種自動化下的第一受益者，所以規範和監管，特別是安全和隱私條款是必須的，比如就像 UP 主說的：

豆包手機的 AI 在自動化操作過程中，哪些數據會被發送到雲端伺服器？

很多人對於 agent 和自動化能力的範疇並不理解，它們可以獲取隱私的邊界是什麼，安全操作的規範是什麼，這些都是需要支持和統一邊界。

比如 Android 16 實際上官方是有規劃 Appfunction API 的，它的目的是讓應用只公布自己開放給 AI 的能力，這樣也許邊界感更強。

當然，從歷史的角度看，Agent 手機勢不可擋，就像谷歌自己未來新的 Android PC 系統 Aluminium OS 也是會結合 Gemini Agent 等特點，這是歷史進程的必然，但是這個過程中，如何統一規範和監管這是很重要的過程，畢竟 AI 的效應和能力，可比之前更強大，就像 UP 主說的，新的 AI 寡頭可能會形成更中心化、更強勢的權力，且馬太效應更明顯。

那麼，你覺得未來誰家的 Agent 設備會成為新時代的寡頭？或者不是手機而是眼鏡？