Claude Code、ChatGPT、Cursor、NotebookLM。每天只要請 AI 幫忙,我就會在鍵盤上輸入一長串提示詞。
突然意識到一件事。
「寫提示詞,不是超級麻煩嗎?」
寫程式、做研究、撰寫文件,現在大多都能交給 AI。自己真正做的,其實只是把需求解釋給 AI 聽,例如「請在這個前提下做這件事」。即便如此,我還是每次都得用鍵盤劈哩啪啦地打字。如果能直接把腦中的想法說出來,速度應該會快上好幾倍。
於是這幾個月我試了 4 款語音輸入 App。先講結論,最後我選定的是 Aqua Voice。
這篇文章會整理:
預計讀者是 每天都在對 AI 丟提示詞的人。不只是使用 Claude Code 的開發者,也包括用 ChatGPT 做研究的 PM / PdM、用 Claude 寫企劃書的企劃、用生成式 AI 製作素材的設計師,只要你在工作上大量使用 AI,都適用。只要你曾經想過「寫提示詞好麻煩」,改用語音輸入就可能讓你的工作方式整個改變。
章節標題1為什麼「語音輸入」最近又火了2試用的 4 款 App 比較表3各 App 詳細介紹(開發商・理念・技術)4為什麼最後選了 Aqua Voice5實戰 Tips(AirPods・機密資訊)6結語---
語音輸入本身並不是新技術。macOS 和 Windows 都有內建功能。甚至 Dragon NaturallySpeaking 已經有 30 多年的歷史。
那麼,為什麼 2024~2026 年間會有這麼多新創玩家陸續進場?原因有兩個。
OpenAI 在 2022 年 9 月發表的 Whisper,是一個用 68 萬小時多語言語音訓練而成的語音辨識模型,並以開源形式釋出。最新的 large-v3 則是用 100 萬小時的弱標記語音 + 400 萬小時的偽標記語音訓練而成。
這讓「個人開發者也能整合出接近 Apple 或 Google 水準的 STT(Speech-to-Text,語音轉文字)」成為可能。
先用 Whisper 把語音轉成文字,再交給 LLM 整理。這就是新世代 App 的基本架構。
舊式語音輸入會把「呃、那個、怎麼說呢」這類語氣詞原封不動輸出。加入 LLM 後,就能一次處理掉贅字、把口語改成文章,甚至連程式碼片段都能整理得更漂亮。
這種 Audio + LLM 的架構,就是現在語音輸入 App 有趣的核心。Aqua Voice、Superwhisper、VoiceOS 都是沿著這條路發展。
實際使用後的評價如下。
App 開發商 處理方式 個人準確度評價 月費概算 Mac 內建語音輸入 Apple 本機 × 連短英文單字(F5 → FG)都辨識不了 免費 Superwhisper SuperUltra, Inc.(多倫多) 本機(whisper.cpp / Parakeet) △ 準確度不如預期 一次買斷或訂閱制 VoiceOS VoiceOS(YC X25) 雲端 △ 普普通通 訂閱制 Aqua Voice Aqua Voice Inc.(舊金山,YC W24) 雲端(Audio + LLM) ◎ 明顯不一樣 訂閱制「個人準確度評價」只是針對我自己的用途——日文和英文混雜的開發相關發言——所得到的印象。實際結果會因發話風格和語言而有所不同。
我最先試的是 Mac 內建語音輸入(按兩次 fn 鍵啟動那個)。
結論是,這個可以直接放棄。
具體來說,「F5」會被辨識成「FG」。連單獨念一個英文字母都抓不好。至於跟程式碼相關的術語(例如 function、useEffect),每次都會變成別的東西。
大概是 Mac 內建語音輸入比較適合把「日文對話」轉成文章,但並不是為了開發者會混著講的英文單字、符號、技術名詞而設計。
我原本想說「先用 OS 內建的就好了吧?」結果試了 5 分鐘就放棄了。
開發商是 SuperUltra, Inc.,總部位於加拿大多倫多。創辦人是 Neil Chudleigh,他原本是 PartnerStack 的共同創辦人。2023 年 8 月在 Hacker News 上推出後,一直沒有引進 VC,靠自籌方式經營至今。
它的技術特色很明確,就是完全偏向 本機處理(離線運作)。採用 OpenAI Whisper 的 C++ 輕量實作 whisper.cpp,再加上以 NVIDIA Parakeet 為基礎,把所有語音處理都在裝置上完成。
離線運作=語音資料不會送到外部,這是 Superwhisper 最大的賣點。據說也被 Meta、OpenAI、Coinbase、Dropbox 等重視機密性的公司員工廣泛使用。
優點:
我覺得不太足夠的地方(就我的用途而言):
如果你是「工作上不能把語音資料送出去」的人,我覺得這幾乎就是唯一選擇。
開發商是 VoiceOS,剛從 Y Combinator 2025 春季梯次(X25)出來。創辦團隊共有 4 人,其中包括 Jonah Daian(CEO,過去 7 年在語音 AI 領域從消費端到企業端都有開發經驗)、以及出生於東京、15 歲赴美的 Kai Brokering。
VoiceOS 跟其他產品最大的不同,不只是做「語音 → 文字」,而是想進一步讓你 用語音操作 App。
願景很吸引人。不過在我試用的時候,Dictation Mode 的準確度和延遲都還不如 Aqua Voice,而 Agent Mode 也常讓我覺得「自己做比較快」。
畢竟是新產品,也許半年後整體表現就會完全不同。
最後我選定的是這個。開發商是 Aqua Voice Inc.,總部在舊金山,出身於 Y Combinator W24 梯次。
創辦人的故事很有意思。
可以看得出來,這是一個真的把「用語音寫作」當成核心需求在做的產品。
技術路線是 Audio + LLM 的雲端處理。跟 Superwhisper 的本機派正好相反,它是把雲端算力用到極致,換取準確度與反應速度。官方宣稱的數據如下:
實際使用時,我覺得這些數字並沒有灌水。你才剛講完對 Claude Code 的指示,文字就已經出現了。像 useState、tsconfig、pnpm 這些開發常用詞,也幾乎不會出錯。
綜合比較之後,對我來說決定性的原因有 3 個。
開發者講話常常是像「useEffect 的 dependency 陣列裡要放依賴值」這種中英混雜句。Aqua Voice 對這種情況處理得很穩。反過來說,其他 App 在英文單字的部分常常會變成片假名或誤辨識。
一停下來,文字就馬上出現,這種體驗比想像中還重要。就算只有 0.5 秒的延遲,人還是會有「被等一下」的感覺;沒有這個延遲,就不會打斷思考的流動。
Aqua Voice 有把輸入內容交給 LLM 整理的模式(例如整理成命令句、整理成程式碼等)。所以你講完的內容,會直接變成「適合拿去當 Claude Code 指令」的文字,幾乎不用事後再修。
這點很容易被忽略。
用 Mac 內建麥克風和用 AirPods Pro 2,實際感受到的準確度差很多。內建麥克風會收進環境音和冷氣聲,尤其英文單字比較容易被誤辨識。只要換成 AirPods,辨識出錯的頻率就會明顯下降。
原因大概是嘴巴距離、波束成形、降噪等因素,而這應該對任何語音輸入 App 都有效。如果你要認真把語音輸入當工作流程使用,請不要用內建麥克風,直接換成耳機。 光是這樣,體驗就會差很多。
Aqua Voice 和 VoiceOS 都是雲端處理。也就是說,你講的語音和文字,會經過他們公司的伺服器。
平常做開發用途通常沒問題,但如果你要講的是:
就要特別小心。這種情況下,建議改用本機處理的 Superwhisper(例如在裝置上運行 whisper.cpp 或 Parakeet 的配置),或者乾脆不要用語音輸入,回到鍵盤輸入會更安全。
對喜歡打字的人來說,可能會覺得「何必特地改成語音?」我一開始也是這樣想的。
但當你每天都在替 AI 寫長篇提示詞時,鍵盤輸入的速度明顯跟不上思考速度。直接把腦中的想法說出來,轉成文字時的摩擦小得多。這不只是開發者的問題,也適用於請 ChatGPT 做研究的 PM、叫 Claude 寫企劃草稿的 PdM、用生成式 AI 製作素材的設計師、用 Notion AI 整理會議記錄的營運人員,以及所有在工作中大量使用 AI 的人。
越是覺得「寫提示詞很麻煩」的人,效果就越明顯。
總結來說:
語音輸入與其說是「打字的替代品」,不如說是一種在 AI 指令層上發揮作用的新輸入裝置。這是我實際用了 3 個月後的感想。
在株式會社 Cynthia,我們也有招募沒有實務經驗的工程師,以及學生工程實習生,一起工作。
※ 關於 Cynthia 的工作方式,可參考這裡
原文出處:https://qiita.com/kazuki_ogawa/items/776340b97f0ca63292a8