小編精選 - 技術文章翻譯 · 05月23日

Claude Code 時代的 4 款語音輸入 App｜從放棄 Mac 內建方案到最後選定 Aqua Voice

前言

Claude Code、ChatGPT、Cursor、NotebookLM。每天只要請 AI 幫忙，我就會在鍵盤上輸入一長串提示詞。

突然意識到一件事。

「寫提示詞，不是超級麻煩嗎？」

寫程式、做研究、撰寫文件，現在大多都能交給 AI。自己真正做的，其實只是把需求解釋給 AI 聽，例如「請在這個前提下做這件事」。即便如此，我還是每次都得用鍵盤劈哩啪啦地打字。如果能直接把腦中的想法說出來，速度應該會快上好幾倍。

於是這幾個月我試了 4 款語音輸入 App。先講結論，最後我選定的是 Aqua Voice。

這篇文章會整理：

實際使用 4 款 App 後，感受到的準確度與易用性差異
各自的開發公司、創辦人、技術路線（不是單純心得評價）
使用 AirPods 後準確度大幅提升的原因，以及機密資訊的處理方式

預計讀者是 每天都在對 AI 丟提示詞的人。不只是使用 Claude Code 的開發者，也包括用 ChatGPT 做研究的 PM / PdM、用 Claude 寫企劃書的企劃、用生成式 AI 製作素材的設計師，只要你在工作上大量使用 AI，都適用。只要你曾經想過「寫提示詞好麻煩」，改用語音輸入就可能讓你的工作方式整個改變。

環境

作業系統：macOS 15.x（Apple Silicon）
主要用途：輸入到 Claude Code / Cursor / ChatGPT / Slack
輸入裝置：MacBook 內建麥克風、AirPods Pro 2
測試期間：2026 年初至 5 月

1. 為什麼「語音輸入」最近又火了

語音輸入本身並不是新技術。macOS 和 Windows 都有內建功能。甚至 Dragon NaturallySpeaking 已經有 30 多年的歷史。

那麼，為什麼 2024～2026 年間會有這麼多新創玩家陸續進場？原因有兩個。

1-1. OpenAI Whisper（2022）把準確度基準拉高了

OpenAI 在 2022 年 9 月發表的 Whisper，是一個用 68 萬小時多語言語音訓練而成的語音辨識模型，並以開源形式釋出。最新的 large-v3 則是用 100 萬小時的弱標記語音 + 400 萬小時的偽標記語音訓練而成。

這讓「個人開發者也能整合出接近 Apple 或 Google 水準的 STT（Speech-to-Text，語音轉文字）」成為可能。

1-2. LLM 開始負責「語音 → 整潔文字」的整理

先用 Whisper 把語音轉成文字，再交給 LLM 整理。這就是新世代 App 的基本架構。

舊式語音輸入會把「呃、那個、怎麼說呢」這類語氣詞原封不動輸出。加入 LLM 後，就能一次處理掉贅字、把口語改成文章，甚至連程式碼片段都能整理得更漂亮。

這種 Audio + LLM 的架構，就是現在語音輸入 App 有趣的核心。Aqua Voice、Superwhisper、VoiceOS 都是沿著這條路發展。

2. 試用的 4 款 App 比較表

實際使用後的評價如下。

App 開發商處理方式個人準確度評價月費概算 Mac 內建語音輸入 Apple 本機 × 連短英文單字（F5 → FG）都辨識不了免費 Superwhisper SuperUltra, Inc.（多倫多）本機（whisper.cpp / Parakeet） △ 準確度不如預期一次買斷或訂閱制 VoiceOS VoiceOS（YC X25）雲端 △ 普普通通訂閱制 Aqua Voice Aqua Voice Inc.（舊金山，YC W24）雲端（Audio + LLM） ◎ 明顯不一樣訂閱制「個人準確度評價」只是針對我自己的用途——日文和英文混雜的開發相關發言——所得到的印象。實際結果會因發話風格和語言而有所不同。

3. 各 App 詳細介紹

3-1. Mac 內建語音輸入 — 先不要抱期待

我最先試的是 Mac 內建語音輸入（按兩次 fn 鍵啟動那個）。

結論是，這個可以直接放棄。

具體來說，「F5」會被辨識成「FG」。連單獨念一個英文字母都抓不好。至於跟程式碼相關的術語（例如 function、useEffect），每次都會變成別的東西。

大概是 Mac 內建語音輸入比較適合把「日文對話」轉成文章，但並不是為了開發者會混著講的英文單字、符號、技術名詞而設計。

我原本想說「先用 OS 內建的就好了吧？」結果試了 5 分鐘就放棄了。

3-2. Superwhisper — 重視隱私的本機派

開發商是 SuperUltra, Inc.，總部位於加拿大多倫多。創辦人是 Neil Chudleigh，他原本是 PartnerStack 的共同創辦人。2023 年 8 月在 Hacker News 上推出後，一直沒有引進 VC，靠自籌方式經營至今。

它的技術特色很明確，就是完全偏向 本機處理（離線運作）。採用 OpenAI Whisper 的 C++ 輕量實作 whisper.cpp，再加上以 NVIDIA Parakeet 為基礎，把所有語音處理都在裝置上完成。

離線運作＝語音資料不會送到外部，這是 Superwhisper 最大的賣點。據說也被 Meta、OpenAI、Coinbase、Dropbox 等重視機密性的公司員工廣泛使用。

優點：

隱私上比較安心（不把語音送上雲端）
不需要網路連線

我覺得不太足夠的地方（就我的用途而言）：

準確度比後面要說的 Aqua Voice 弱一些
雖然也能設定成把整理交給雲端 API，但如果全程本機，整理能力會稍微弱一點

如果你是「工作上不能把語音資料送出去」的人，我覺得這幾乎就是唯一選擇。

3-3. VoiceOS — 主打「Siri for Productivity」的新創

開發商是 VoiceOS，剛從 Y Combinator 2025 春季梯次（X25）出來。創辦團隊共有 4 人，其中包括 Jonah Daian（CEO，過去 7 年在語音 AI 領域從消費端到企業端都有開發經驗）、以及出生於東京、15 歲赴美的 Kai Brokering。

VoiceOS 跟其他產品最大的不同，不只是做「語音 → 文字」，而是想進一步讓你 用語音操作 App。

Dictation Mode：把語音整理後輸入文字（一般語音輸入）
Agent Mode：由 AI Agent 執行傳送 Slack、撰寫 Gmail、建立行事曆等操作

願景很吸引人。不過在我試用的時候，Dictation Mode 的準確度和延遲都還不如 Aqua Voice，而 Agent Mode 也常讓我覺得「自己做比較快」。

畢竟是新產品，也許半年後整體表現就會完全不同。

3-4. Aqua Voice — 專注 Audio + LLM 的雲端派

最後我選定的是這個。開發商是 Aqua Voice Inc.，總部在舊金山，出身於 Y Combinator W24 梯次。

創辦人的故事很有意思。

Finnian Brown（CEO，哈佛畢業，主修哲學）：有讀寫障礙，從小學六年級開始就使用 Dragon 這類語音輸入軟體。對他來說，「用語音寫作」一直是主要輸入方式。
Jack McIntire（CTO，哈佛輟學）：前 Arcturus Intelligence 工程師。

可以看得出來，這是一個真的把「用語音寫作」當成核心需求在做的產品。

技術路線是 Audio + LLM 的雲端處理。跟 Superwhisper 的本機派正好相反，它是把雲端算力用到極致，換取準確度與反應速度。官方宣稱的數據如下：

啟動時間低於 50ms
從停止發話到插入文字約 450ms
技術術語辨識準確率 97%

實際使用時，我覺得這些數字並沒有灌水。你才剛講完對 Claude Code 的指示，文字就已經出現了。像 useState、tsconfig、pnpm 這些開發常用詞，也幾乎不會出錯。

4. 為什麼最後選了 Aqua Voice

綜合比較之後，對我來說決定性的原因有 3 個。

4-1. 對技術術語與中英混雜很強

開發者講話常常是像「useEffect 的 dependency 陣列裡要放依賴值」這種中英混雜句。Aqua Voice 對這種情況處理得很穩。反過來說，其他 App 在英文單字的部分常常會變成片假名或誤辨識。

4-2. 幾乎感受不到延遲

一停下來，文字就馬上出現，這種體驗比想像中還重要。就算只有 0.5 秒的延遲，人還是會有「被等一下」的感覺；沒有這個延遲，就不會打斷思考的流動。

4-3. 很適合拿來當 Claude Code 或 Cursor 的提示詞

Aqua Voice 有把輸入內容交給 LLM 整理的模式（例如整理成命令句、整理成程式碼等）。所以你講完的內容，會直接變成「適合拿去當 Claude Code 指令」的文字，幾乎不用事後再修。

5. 實戰 Tips

5-1. 用 AirPods 或耳機輸入，準確度會提升

這點很容易被忽略。

用 Mac 內建麥克風和用 AirPods Pro 2，實際感受到的準確度差很多。內建麥克風會收進環境音和冷氣聲，尤其英文單字比較容易被誤辨識。只要換成 AirPods，辨識出錯的頻率就會明顯下降。

原因大概是嘴巴距離、波束成形、降噪等因素，而這應該對任何語音輸入 App 都有效。如果你要認真把語音輸入當工作流程使用，請不要用內建麥克風，直接換成耳機。 光是這樣，體驗就會差很多。

5-2. 處理機密資訊時，避開雲端型服務

Aqua Voice 和 VoiceOS 都是雲端處理。也就是說，你講的語音和文字，會經過他們公司的伺服器。

平常做開發用途通常沒問題，但如果你要講的是：

含有客戶資訊、個資的指示
尚未公開的商業計畫、營運資訊
公司內部文件或私有程式碼庫的內容

就要特別小心。這種情況下，建議改用本機處理的 Superwhisper（例如在裝置上運行 whisper.cpp 或 Parakeet 的配置），或者乾脆不要用語音輸入，回到鍵盤輸入會更安全。

6. 結語

對喜歡打字的人來說，可能會覺得「何必特地改成語音？」我一開始也是這樣想的。

但當你每天都在替 AI 寫長篇提示詞時，鍵盤輸入的速度明顯跟不上思考速度。直接把腦中的想法說出來，轉成文字時的摩擦小得多。這不只是開發者的問題，也適用於請 ChatGPT 做研究的 PM、叫 Claude 寫企劃草稿的 PdM、用生成式 AI 製作素材的設計師、用 Notion AI 整理會議記錄的營運人員，以及所有在工作中大量使用 AI 的人。

越是覺得「寫提示詞很麻煩」的人，效果就越明顯。

總結來說：