ElevenLabs 大概是這兩年「聽過就回不去」的 AI 工具之一。第一次聽到它生成的語音,多數人的反應都是「這真的是 AI 念的?」——那種有呼吸、有語氣、會在句尾自然收音的真人感,是過去那些「導航小姐」式的機器語音給不了的。但也正因為它太像真人,很多人第一次打開反而不知道從何下手:要選哪個聲音?參數那一排滑桿是幹嘛的?中文念起來會不會卡?
你卡在哪? 你是不是覺得 ElevenLabs「介面全是英文」「不知道怎麼讓中文念得自然」「不確定要不要付費」? 這篇要解決什麼? 從零開始,帶你把 ElevenLabs 從「玩具」用成能產出 Podcast、影片旁白、客服語音的生產力工具。 讀完你會得到什麼? 完整的上手步驟、實際操作示範、可直接複製的參數與寫法、進階技巧,以及台灣使用者最常踩的雷區。
免責聲明:本文為教學用途,介面與功能可能隨 ElevenLabs 更新而調整,請以官方為準。語音複製與商用授權涉及法律責任,請自行確認當事人同意與當下方案條款。
這個工具能幫你做什麼
先把期待校準一下。ElevenLabs 的核心是「Text to Speech(文字轉語音)」,也就是把你打的文字,用接近真人的聲音念出來。但它真正強的地方,是聲音的「自然度」與「可控性」——你不只能選聲音,還能調語氣、做情感、複製音色、甚至幫整支影片換語言配音。
實際上台灣使用者最常用它做這些事:
- 影片旁白:YouTube 解說、教學影片、產品介紹,不想露臉或不想自己配音時,用 AI 旁白省下大量錄音與重錄的時間。
- Podcast 與有聲書:把文章、小說、部落格內容轉成有聲版本,或做成多人對話的 Podcast 形式。
- 多語配音(Dubbing):把一支中文影片自動翻成英文、日文配音,且音色貼近原聲,做跨國內容超有效率。
- 客服與語音助理:用 API 把生成語音串進客服系統、IVR 電話語音、App 內語音回覆。
- 語音複製(Voice Cloning):複製自己的聲音,之後打字就能「用你的聲音」說話,做品牌一致的語音內容。
- 遊戲與動畫配音:替角色生成大量台詞,快速做原型或補配音。
簡單說:凡是「需要把文字變成自然人聲」的場景,它幾乎都能勝任。 反過來,需要即時對話互動(它不是即時語音對話 AI)、需要百分百精準的專有名詞發音(中文難字仍會出錯)、或預算有限又要做超長內容(成本會累積)的情況,就要先評估清楚。
第一步:註冊與介面
這一段帶你從零到能流暢操作。照著做,五分鐘內就能生成第一段語音。
Step 1:註冊與登入
到官網 elevenlabs.io,點右上角「Sign Up」,用 Google 帳號或 Email 註冊即可。台灣可以直接註冊,不需要 VPN。註冊後會進到 Free 免費方案,每月約有一萬字元的生成額度,足夠你把整個工具摸熟。
Step 2:認識介面
登入後左側選單是核心,記住這幾個:
- Text to Speech:最常用的功能,把文字轉成語音。
- Voices / Voice Library:聲音庫,挑選或管理你要用的聲音。
- Dubbing:影片翻譯配音。
- Voice Cloning(在 Voices 內):複製聲音。
- 右上角額度:顯示本月剩餘字元數,這是免費版最需要盯的數字。
Step 3:選對聲音
進到 Voices,你會看到一整排預設聲音與社群分享的聲音(每個都能試聽)。挑選時注意三件事:語言(找標註支援多語或中文的)、性別與年齢感、調性(沉穩旁白?活潑廣告?)。新手建議先用內建幾個高品質預設聲音(如 Rachel、Adam)測試,熟了再去 Voice Library 找更貼近你內容的。
Step 4:調整參數
選好聲音後,到 Text to Speech 頁面,貼上文字,右側會有三個關鍵滑桿:
- Stability(穩定度):高=語氣平穩一致、低=情感起伏大但偶爾失控。
- Similarity / Clarity(相似度):與原聲音色的貼近程度。
- Style Exaggeration(風格強度):放大情感與口音特徵,做戲劇化內容時調高。
調完按下生成(Generate),等幾秒就能試聽。
Step 5:匯出與應用
滿意後按下載,取得 MP3 檔,直接拖進剪輯軟體當旁白;或如果你會寫程式,用 API 把生成流程自動化,串進你的 Podcast 產線或客服系統。
核心功能怎麼用
把上面的流程跑熟之後,真正決定成品品質的,是這幾個細節。
第一,文字本身就是「提示詞」。 ElevenLabs 沒有獨立的 prompt 欄位,你的標點符號就是控制器。逗號、句號控制停頓長度,問號讓句尾上揚,驚嘆號增加力度,「……」製造拉長的停頓。想要一個明顯的停頓,多打幾個句號或換行往往比硬調參數有效。
第二,中文要「為念而寫」,不是「為讀而寫」。 這是台灣使用者最大的雷。書面語的「之、其、係」念起來會很文謅謅;英數混雜(像「iPhone 15 Pro」「CP 值」「Q4」)AI 常會念錯或念成怪腔。實務做法:把難念的詞直接改寫成口語化、好念的寫法,例如把「Q4」寫成「第四季」、把容易吃字的專有名詞拆開或加標點。
第三,參數沒有萬用值,要分內容類型調。 知識型旁白求穩,Stability 拉高到 60%~70%;廣告、角色、情緒戲求生動,Stability 降到 30%~40% 並把 Style 拉高。每次只改一個滑桿、各生成一版來比較,比一次動三個有效率得多。
第四,善用 Voice Cloning 建立「你自己的聲音」。 在 Voices 裡選 Voice Cloning,上傳一段乾淨、無雜音的自己錄音(建議安靜環境、麥克風近一點、念個幾分鐘的多樣內容),系統就會建立你的專屬聲音。之後打字就能用你的聲音說話,做品牌一致的語音內容非常實用。
可複製範例
下面是給知識型 YouTube 旁白用的一組設定與寫法範本,照著套就能少走很多冤枉路。
【情境】3 分鐘 AI 工具教學影片的開場旁白
【聲音選擇】
- 從 Voice Library 找標註「Multilingual」或支援中文的沉穩男聲/女聲
- 內建可先用 Rachel(女)或 Adam(男)測試
【參數設定】
- Stability:65%(知識型內容求穩定)
- Similarity / Clarity:75%
- Style Exaggeration:10%(不要太戲劇化)
- Speed:1.0(正常語速)
【文字寫法(為念而寫)】
嗨,歡迎回到頻道。今天,我們要來聊一個能幫你省下大半時間的工具。
你是不是常常,光是把文字變成語音,就卡住老半天?
別擔心。接下來這三分鐘,我會帶你,從零開始,一步一步把它搞定。
我們開始吧。
【寫法重點】
1. 用逗號切出自然的停頓,不要寫一長串不喘氣的句子。
2. 口語化用字(「搞定」而非「完成設定」),念起來才像人。
3. 避免英數混雜;真的要用,先用括號標注念法測試。
4. 段落間多空一行或加句號,製造段落間的呼吸。
把這段貼進 Text to Speech,先生成一版聽聽看,再針對「哪裡停頓不對、哪個詞念錯」回去改文字,通常改三、四輪就能達到能用的品質。
進階技巧
當你已經能穩定產出可用語音,這幾招能讓你從「做得出來」進到「做得好又快」。
- Dubbing 做多語版內容:在 Dubbing 貼上 YouTube 連結或上傳影片,選目標語言,它會自動辨識原聲、翻譯、用接近原聲的音色重配並對時間軸。但機器翻譯一定要人工校稿,尤其專有名詞與在地用語。
- 用 Projects 做長內容:要做有聲書或長 Podcast,用 Projects(長文本)功能,可以分章節、分段落管理,比一段段貼進 Text to Speech 好維護太多。
- API 串進自動化流程:會寫程式的話,ElevenLabs 提供完整 API。你可以把它接進 n8n、Make 等自動化工具,做到「新文章發布 → 自動生成語音 → 上傳到 Podcast 平台」的全自動產線。
- 多人對話用不同聲音拼接:要做訪談式 Podcast,分別用兩個聲音各自生成台詞,再到剪輯軟體交錯拼接,就能做出對談感。
- 省額度的小撇步:免費與低階方案字元珍貴,定稿前用短句測參數、確定設定後再生成完整版,別每次都把整篇重生一次。
常見問題與雷區
最後幫你把台灣使用者最常踩的坑列出來,避開這些就能少走很多冤枉路。
- 以為中文會自動很完美:不會。中文(尤其台灣口語、英數混雜)一定要校稿、改寫難念詞,這是品質好壞的關鍵分水嶺。
- 參數一次動三個滑桿:很難判斷是哪個變數造成的差異。一次改一個、A/B 比對,才調得出最佳值。
- 忽略商用授權:免費方案多半限個人非商用、要標註出處。拿免費版生成的語音去接業配或廣告,可能踩到授權雷,商用前務必確認方案條款。
- 未經同意複製他人聲音:這是最嚴重的法律與道德紅線。複製名人、他人聲音涉及肖像權、人格權與詐騙風險,台灣已有相關規範,務必取得授權。
- 錄製複製樣本時環境太吵:Voice Cloning 的成品品質,幾乎完全取決於你上傳的原始錄音。背景有冷氣聲、回音、爆音,複製出來的聲音就會帶著這些瑕疵。
- 長內容沒算成本就開做:ElevenLabs 是按字元計費,一本有聲書、一系列長影片累積下來字元數驚人。動工前先估算總字數對應的方案額度與費用。
總結
ElevenLabs 真正的價值,不在於「能把文字念出來」——這件事很多免費工具都做得到——而在於它念出來的東西「像真人」,而且你能精細地控制它的語氣、情感與音色,甚至複製你自己的聲音。對影片創作者、Podcaster、做多語內容的團隊來說,它省下的是錄音、重錄、找配音員的大量時間與成本。
但它也不是萬能。中文難字要校稿、參數要試、長內容成本會累積、商用與聲音複製有法律邊界要守。把這篇的步驟與雷區走過一遍,你大概就能判斷它適不適合你的工作流程。
至於「免費版夠不夠、要不要升級付費方案、跟其他 TTS 工具比划不划算」——這就要看你的使用量與商用需求了。我們在 ElevenLabs 完整評測裡,把各方案的額度、價格、商用授權、語音品質與實測優缺點都拆開比較了,建議你看完評測再決定值不值得付費。想找更多語音、影音類 AI 工具,也可以逛逛我們的 AI 工具庫,或到 任務食譜書找「照做就能完成」的完整流程。
常見問題 FAQ
ElevenLabs 免費版夠用嗎?需要付費升級嗎?
ElevenLabs 在台灣可以直接用嗎?需要 VPN 嗎?
ElevenLabs 的中文語音自然嗎?
語音複製(Voice Cloning)合法嗎?會不會有風險?
生成的語音可以拿來商用嗎?版權歸誰?
Stability 和 Similarity 這些參數到底怎麼調?
ElevenLabs 可以幫影片做翻譯配音嗎?
ElevenLabs 和 Google、微軟的 TTS 比,差在哪?
延伸閱讀
每週把這類實戰教學寄給你
訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。
免費 · 隨時取消