前言

Claude Code、ChatGPT、Cursor、NotebookLM。每天只要請 AI 幫忙,我就會在鍵盤上輸入一長串提示詞。

突然意識到一件事。

「寫提示詞,不是超級麻煩嗎?」

寫程式、做研究、撰寫文件,現在大多都能交給 AI。自己真正做的,其實只是把需求解釋給 AI 聽,例如「請在這個前提下做這件事」。即便如此,我還是每次都得用鍵盤劈哩啪啦地打字。如果能直接把腦中的想法說出來,速度應該會快上好幾倍。

於是這幾個月我試了 4 款語音輸入 App。先講結論,最後我選定的是 Aqua Voice

這篇文章會整理:

  • 實際使用 4 款 App 後,感受到的準確度與易用性差異
  • 各自的開發公司、創辦人、技術路線(不是單純心得評價)
  • 使用 AirPods 後準確度大幅提升的原因,以及機密資訊的處理方式

預計讀者是 每天都在對 AI 丟提示詞的人。不只是使用 Claude Code 的開發者,也包括用 ChatGPT 做研究的 PM / PdM、用 Claude 寫企劃書的企劃、用生成式 AI 製作素材的設計師,只要你在工作上大量使用 AI,都適用。只要你曾經想過「寫提示詞好麻煩」,改用語音輸入就可能讓你的工作方式整個改變。

環境

  • 作業系統:macOS 15.x(Apple Silicon)
  • 主要用途:輸入到 Claude Code / Cursor / ChatGPT / Slack
  • 輸入裝置:MacBook 內建麥克風、AirPods Pro 2
  • 測試期間:2026 年初至 5 月

目錄

章節標題1為什麼「語音輸入」最近又火了2試用的 4 款 App 比較表3各 App 詳細介紹(開發商・理念・技術)4為什麼最後選了 Aqua Voice5實戰 Tips(AirPods・機密資訊)6結語---

1. 為什麼「語音輸入」最近又火了

語音輸入本身並不是新技術。macOS 和 Windows 都有內建功能。甚至 Dragon NaturallySpeaking 已經有 30 多年的歷史。

那麼,為什麼 2024~2026 年間會有這麼多新創玩家陸續進場?原因有兩個。

1-1. OpenAI Whisper(2022)把準確度基準拉高了

OpenAI 在 2022 年 9 月發表的 Whisper,是一個用 68 萬小時多語言語音訓練而成的語音辨識模型,並以開源形式釋出。最新的 large-v3 則是用 100 萬小時的弱標記語音 + 400 萬小時的偽標記語音訓練而成。

這讓「個人開發者也能整合出接近 Apple 或 Google 水準的 STT(Speech-to-Text,語音轉文字)」成為可能。

1-2. LLM 開始負責「語音 → 整潔文字」的整理

先用 Whisper 把語音轉成文字,再交給 LLM 整理。這就是新世代 App 的基本架構。

舊式語音輸入會把「呃、那個、怎麼說呢」這類語氣詞原封不動輸出。加入 LLM 後,就能一次處理掉贅字、把口語改成文章,甚至連程式碼片段都能整理得更漂亮。

這種 Audio + LLM 的架構,就是現在語音輸入 App 有趣的核心。Aqua Voice、Superwhisper、VoiceOS 都是沿著這條路發展。


2. 試用的 4 款 App 比較表

實際使用後的評價如下。

App 開發商 處理方式 個人準確度評價 月費概算 Mac 內建語音輸入 Apple 本機 × 連短英文單字(F5 → FG)都辨識不了 免費 Superwhisper SuperUltra, Inc.(多倫多) 本機(whisper.cpp / Parakeet) △ 準確度不如預期 一次買斷或訂閱制 VoiceOS VoiceOS(YC X25) 雲端 △ 普普通通 訂閱制 Aqua Voice Aqua Voice Inc.(舊金山,YC W24) 雲端(Audio + LLM) ◎ 明顯不一樣 訂閱制「個人準確度評價」只是針對我自己的用途——日文和英文混雜的開發相關發言——所得到的印象。實際結果會因發話風格和語言而有所不同。


3. 各 App 詳細介紹

3-1. Mac 內建語音輸入 — 先不要抱期待

我最先試的是 Mac 內建語音輸入(按兩次 fn 鍵啟動那個)。

結論是,這個可以直接放棄。

具體來說,「F5」會被辨識成「FG」。連單獨念一個英文字母都抓不好。至於跟程式碼相關的術語(例如 functionuseEffect),每次都會變成別的東西。

大概是 Mac 內建語音輸入比較適合把「日文對話」轉成文章,但並不是為了開發者會混著講的英文單字、符號、技術名詞而設計。

我原本想說「先用 OS 內建的就好了吧?」結果試了 5 分鐘就放棄了。

3-2. Superwhisper — 重視隱私的本機派

開發商是 SuperUltra, Inc.,總部位於加拿大多倫多。創辦人是 Neil Chudleigh,他原本是 PartnerStack 的共同創辦人。2023 年 8 月在 Hacker News 上推出後,一直沒有引進 VC,靠自籌方式經營至今。

它的技術特色很明確,就是完全偏向 本機處理(離線運作)。採用 OpenAI Whisper 的 C++ 輕量實作 whisper.cpp,再加上以 NVIDIA Parakeet 為基礎,把所有語音處理都在裝置上完成。

離線運作=語音資料不會送到外部,這是 Superwhisper 最大的賣點。據說也被 Meta、OpenAI、Coinbase、Dropbox 等重視機密性的公司員工廣泛使用。

優點:

  • 隱私上比較安心(不把語音送上雲端)
  • 不需要網路連線

我覺得不太足夠的地方(就我的用途而言):

  • 準確度比後面要說的 Aqua Voice 弱一些
  • 雖然也能設定成把整理交給雲端 API,但如果全程本機,整理能力會稍微弱一點

如果你是「工作上不能把語音資料送出去」的人,我覺得這幾乎就是唯一選擇。

3-3. VoiceOS — 主打「Siri for Productivity」的新創

開發商是 VoiceOS,剛從 Y Combinator 2025 春季梯次(X25)出來。創辦團隊共有 4 人,其中包括 Jonah Daian(CEO,過去 7 年在語音 AI 領域從消費端到企業端都有開發經驗)、以及出生於東京、15 歲赴美的 Kai Brokering。

VoiceOS 跟其他產品最大的不同,不只是做「語音 → 文字」,而是想進一步讓你 用語音操作 App

  • Dictation Mode:把語音整理後輸入文字(一般語音輸入)
  • Agent Mode:由 AI Agent 執行傳送 Slack、撰寫 Gmail、建立行事曆等操作

願景很吸引人。不過在我試用的時候,Dictation Mode 的準確度和延遲都還不如 Aqua Voice,而 Agent Mode 也常讓我覺得「自己做比較快」。

畢竟是新產品,也許半年後整體表現就會完全不同。

3-4. Aqua Voice — 專注 Audio + LLM 的雲端派

最後我選定的是這個。開發商是 Aqua Voice Inc.,總部在舊金山,出身於 Y Combinator W24 梯次。

創辦人的故事很有意思。

  • Finnian Brown(CEO,哈佛畢業,主修哲學):有讀寫障礙,從小學六年級開始就使用 Dragon 這類語音輸入軟體。對他來說,「用語音寫作」一直是主要輸入方式。
  • Jack McIntire(CTO,哈佛輟學):前 Arcturus Intelligence 工程師。

可以看得出來,這是一個真的把「用語音寫作」當成核心需求在做的產品。

技術路線是 Audio + LLM 的雲端處理。跟 Superwhisper 的本機派正好相反,它是把雲端算力用到極致,換取準確度與反應速度。官方宣稱的數據如下:

  • 啟動時間低於 50ms
  • 從停止發話到插入文字約 450ms
  • 技術術語辨識準確率 97%

實際使用時,我覺得這些數字並沒有灌水。你才剛講完對 Claude Code 的指示,文字就已經出現了。像 useStatetsconfigpnpm 這些開發常用詞,也幾乎不會出錯。


4. 為什麼最後選了 Aqua Voice

綜合比較之後,對我來說決定性的原因有 3 個。

4-1. 對技術術語與中英混雜很強

開發者講話常常是像「useEffect 的 dependency 陣列裡要放依賴值」這種中英混雜句。Aqua Voice 對這種情況處理得很穩。反過來說,其他 App 在英文單字的部分常常會變成片假名或誤辨識。

4-2. 幾乎感受不到延遲

一停下來,文字就馬上出現,這種體驗比想像中還重要。就算只有 0.5 秒的延遲,人還是會有「被等一下」的感覺;沒有這個延遲,就不會打斷思考的流動。

4-3. 很適合拿來當 Claude Code 或 Cursor 的提示詞

Aqua Voice 有把輸入內容交給 LLM 整理的模式(例如整理成命令句、整理成程式碼等)。所以你講完的內容,會直接變成「適合拿去當 Claude Code 指令」的文字,幾乎不用事後再修。


5. 實戰 Tips

5-1. 用 AirPods 或耳機輸入,準確度會提升

這點很容易被忽略。

用 Mac 內建麥克風和用 AirPods Pro 2,實際感受到的準確度差很多。內建麥克風會收進環境音和冷氣聲,尤其英文單字比較容易被誤辨識。只要換成 AirPods,辨識出錯的頻率就會明顯下降。

原因大概是嘴巴距離、波束成形、降噪等因素,而這應該對任何語音輸入 App 都有效。如果你要認真把語音輸入當工作流程使用,請不要用內建麥克風,直接換成耳機。 光是這樣,體驗就會差很多。

5-2. 處理機密資訊時,避開雲端型服務

Aqua Voice 和 VoiceOS 都是雲端處理。也就是說,你講的語音和文字,會經過他們公司的伺服器。

平常做開發用途通常沒問題,但如果你要講的是:

  • 含有客戶資訊、個資的指示
  • 尚未公開的商業計畫、營運資訊
  • 公司內部文件或私有程式碼庫的內容

就要特別小心。這種情況下,建議改用本機處理的 Superwhisper(例如在裝置上運行 whisper.cpp 或 Parakeet 的配置),或者乾脆不要用語音輸入,回到鍵盤輸入會更安全。


6. 結語

對喜歡打字的人來說,可能會覺得「何必特地改成語音?」我一開始也是這樣想的。

但當你每天都在替 AI 寫長篇提示詞時,鍵盤輸入的速度明顯跟不上思考速度。直接把腦中的想法說出來,轉成文字時的摩擦小得多。這不只是開發者的問題,也適用於請 ChatGPT 做研究的 PM、叫 Claude 寫企劃草稿的 PdM、用生成式 AI 製作素材的設計師、用 Notion AI 整理會議記錄的營運人員,以及所有在工作中大量使用 AI 的人。

越是覺得「寫提示詞很麻煩」的人,效果就越明顯。

總結來說:

  • Mac 內建語音輸入 對 AI 用途幾乎不能用,連短英文單字都會辨識錯
  • Superwhisper 是重視隱私的本機派,適合要處理機密資訊的人
  • VoiceOS 有 Agent 方向的野心,但目前準確度還比不上 Aqua Voice
  • Aqua Voice 是在雲端全力優化的方案,就拿來對 AI 下指令的用途而言,目前最好
  • 使用 AirPods 就能再提升一個檔次的準確度
  • 雲端型服務要注意機密資訊的輸入

語音輸入與其說是「打字的替代品」,不如說是一種在 AI 指令層上發揮作用的新輸入裝置。這是我實際用了 3 個月後的感想。

Welcome!

在株式會社 Cynthia,我們也有招募沒有實務經驗的工程師,以及學生工程實習生,一起工作。
※ 關於 Cynthia 的工作方式,可參考這裡

參考資料


原文出處:https://qiita.com/kazuki_ogawa/items/776340b97f0ca63292a8


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝17   💬11   ❤️1
585
🥈
alicec
📝1   ❤️2
81
🥉
我愛JS
💬2  
7
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登