產品特色
提供超過600種AI聲音
支持多種語言和口音
將文字轉換為真實的語音
下載生成的語音為MP3和WAV文件
流量來源
直接訪問 | 43.01% | 外鏈引薦 | 51.53% | 郵件 | 0.04% |
自然搜索 | 3.95% | 社交媒體 | 1.24% | 展示廣告 | 0.22% |
最新流量情況
月訪問量 | 2178.16k |
平均訪問時長 | 167.21 |
每次訪問頁數 | 4.58 |
跳出率 | 38.13% |
總流量趨勢圖
地理流量分佈情況
月訪問量 | 2178.16k |
United States | 14.57% |
India | 11.34% |
Pakistan | 5.50% |
United Kingdom | 3.94% |
Philippines | 3.64% |
地理流量分佈全球圖
同類開源產品
國外精選

Dia AI
Dia 是一個由 Nari Labs 開發的文本到語音(TTS)模型,具有 1.6 億參數,能夠直接從文本生成高度逼真的對話。該模型支持情感和語調控制,並能夠生成非言語交流,如笑聲和咳嗽。它的預訓練模型權重託管在 Hugging Face 上,適用於英語生成。此產品對於研究和教育用途至關重要,能夠推動對話生成技術的發展。
文本轉聲音

Orpheus TTS
Orpheus TTS 是一個基於 Llama-3b 模型的開源文本轉語音系統,旨在提供更加自然的人類語音合成。它具備較強的語音克隆能力和情感表達能力,適合各種即時應用場景。該產品是免費的,旨在為開發者和研究者提供便捷的語音合成工具。
文本轉聲音

CSM 1B
CSM 1B 是一個基於 Llama 架構的語音生成模型,能夠從文本和音頻輸入中生成 RVQ 音頻代碼。該模型主要應用於語音合成領域,具有高質量的語音生成能力。其優勢在於能夠處理多說話人的對話場景,並通過上下文信息生成自然流暢的語音。該模型開源,旨在為研究和教育目的提供支持,但明確禁止用於冒充、欺詐或非法活動。
語音生成

Spark TTS
Spark-TTS 是一種基於大語言模型的高效文本到語音合成模型,具有單流解耦語音令牌的特性。它利用大語言模型的強大能力,直接從代碼預測的音頻進行重建,省略了額外的聲學特徵生成模型,從而提高了效率並降低了複雜性。該模型支持零樣本文本到語音合成,能夠跨語言和代碼切換場景,非常適合需要高自然度和準確性的語音合成應用。它還支持虛擬語音創建,用戶可以通過調整參數(如性別、音高和語速)來生成不同的語音。該模型的背景是為了解決傳統語音合成系統中效率低下和複雜性高的問題,旨在為研究和生產提供高效、靈活且強大的解決方案。目前,該模型主要面向學術研究和合法應用,如個性化語音合成、輔助技術和語言研究等。
文本轉聲音

Llasa
Llasa是一個基於Llama框架的文本到語音(TTS)基礎模型,專為大規模語音合成任務設計。該模型利用16萬小時的標記化語音數據進行訓練,具備高效的語言生成能力和多語言支持。其主要優點包括強大的語音合成能力、低推理成本和靈活的框架兼容性。該模型適用於教育、娛樂和商業場景,能夠為用戶提供高質量的語音合成解決方案。目前該模型在Hugging Face上免費提供,旨在推動語音合成技術的發展和應用。
文本轉聲音

Indextts
IndexTTS 是一種基於 GPT 風格的文本到語音(TTS)模型,主要基於 XTTS 和 Tortoise 進行開發。它能夠通過拼音糾正漢字發音,並通過標點符號控制停頓。該系統在中文場景中引入了字符-拼音混合建模方法,顯著提高了訓練穩定性、音色相似性和音質。此外,它還集成了 BigVGAN2 來優化音頻質量。該模型在數萬小時的數據上進行訓練,性能超越了當前流行的 TTS 系統,如 XTTS、CosyVoice2 和 F5-TTS。IndexTTS 適用於需要高質量語音合成的場景,如語音助手、有聲讀物等,其開源性質也使其適合學術研究和商業應用。
文本轉聲音

Zonos
Zonos 是一個先進的文本到語音模型,支持多種語言,能夠根據文本提示和說話者嵌入或音頻前綴生成自然語音。它還支持語音克隆,只需幾秒鐘的參考音頻即可準確複製說話者的聲音。該模型具有高質量的語音輸出(44kHz),並允許對語速、音調變化、音頻質量和情緒(如快樂、恐懼、悲傷和憤怒)進行精細控制。Zonos 提供了 Python 和 Gradio 接口,方便用戶快速上手,並支持通過 Docker 部署。該模型在 RTX 4090 上的即時因子約為 2 倍,適合需要高質量語音合成的應用場景。
文本轉聲音

Zonos V0.1 Hybrid
Zonos-v0.1-hybrid 是由 Zyphra 開發的一款開源文本轉語音模型,它能夠根據文本提示生成高度自然的語音。該模型經過大量英語語音數據訓練,採用 eSpeak 進行文本歸一化和音素化,再通過變換器或混合骨幹網絡預測 DAC 令牌。它支持多種語言,包括英語、日語、中文、法語和德語,並且可以對生成語音的語速、音調、音頻質量和情緒等進行精細控制。此外,它還具備零樣本語音克隆功能,僅需 5 到 30 秒的語音樣本即可實現高保真語音克隆。該模型在 RTX 4090 上的即時因子約為 2 倍,運行速度較快。它還配備了易於使用的 gradio 界面,並且可以通過 Docker 文件簡單安裝和部署。目前,該模型在 Hugging Face 上提供,用戶可以免費使用,但需要自行部署。
文本轉聲音

Llasa 1B
Llasa-1B 是一個由香港科技大學音頻實驗室開發的文本轉語音模型。它基於 LLaMA 架構,通過結合 XCodec2 代碼本中的語音標記,能夠將文本轉換為自然流暢的語音。該模型在 25 萬小時的中英文語音數據上進行了訓練,支持從純文本生成語音,也可以利用給定的語音提示進行合成。其主要優點是能夠生成高質量的多語言語音,適用於多種語音合成場景,如有聲讀物、語音助手等。該模型採用 CC BY-NC-ND 4.0 許可證,禁止商業用途。
文本轉聲音
替代品

Voispark
VoiSpark是一個AI語音生成平臺,能生成逼真的文本轉語音,克隆聲音,併為視頻、播客等定製獨特AI聲音。該平臺具有100%免費試用。
文本轉聲音

Echopod
EchoPod是一個利用人工智能將文章、博客和故事轉換為專業品質播客的平臺。其重要性在於可以幫助用戶擴大影響力,提升受眾參與度,無需錄音室即可實現播客製作。EchoPod為Adformatie的數字媒體未來打開了無限可能。
文本轉聲音
國外精選

Dia AI
Dia 是一個由 Nari Labs 開發的文本到語音(TTS)模型,具有 1.6 億參數,能夠直接從文本生成高度逼真的對話。該模型支持情感和語調控制,並能夠生成非言語交流,如笑聲和咳嗽。它的預訓練模型權重託管在 Hugging Face 上,適用於英語生成。此產品對於研究和教育用途至關重要,能夠推動對話生成技術的發展。
文本轉聲音

Text To Bark
Text to Bark 是由 ElevenLabs 開發的首個 AI 驅動的文本轉語音模型,旨在幫助人們與狗狗進行更有效的溝通。該技術不僅展現了極高的語音合成質量,還能以自然的方式模擬狗的聲音,創造出適合狗狗理解的交流方式。這個創新產品的推出,將人與寵物之間的互動提升到了一個新的高度,讓主人與愛犬之間的交流更加有趣和有效。用戶可以通過簡單的文本輸入,生成相應的 “狗語”,從而更好地理解和與寵物互動。
文本轉聲音

Podcastle AI Voices
這是一個強大的文本轉語音生成器,擁有超過 1000 種高質量的 AI 語音。適合各種使用場景,如播客、教育和商業內容創作。用戶可以利用該平臺生成清晰、自然的語音內容,支持語音克隆和音頻視頻編輯,價格合理,每月僅需 39.99 美元,適合個人和企業使用。
文本轉聲音

Orpheus TTS
Orpheus TTS 是一個基於 Llama-3b 模型的開源文本轉語音系統,旨在提供更加自然的人類語音合成。它具備較強的語音克隆能力和情感表達能力,適合各種即時應用場景。該產品是免費的,旨在為開發者和研究者提供便捷的語音合成工具。
文本轉聲音

CSM 1B
CSM 1B 是一個基於 Llama 架構的語音生成模型,能夠從文本和音頻輸入中生成 RVQ 音頻代碼。該模型主要應用於語音合成領域,具有高質量的語音生成能力。其優勢在於能夠處理多說話人的對話場景,並通過上下文信息生成自然流暢的語音。該模型開源,旨在為研究和教育目的提供支持,但明確禁止用於冒充、欺詐或非法活動。
語音生成

Zonos TTS
Zonos TTS 是一款先進的 AI 文本轉語音技術,支持多語言、情感控制和零樣本語音克隆。它能夠生成自然、富有表現力的語音,適用於教育、有聲讀物、視頻遊戲、語音助手等多種場景。該技術通過高質量音頻輸出(44kHz)和快速即時處理能力,為用戶提供高效且個性化的語音生成解決方案。雖然產品本身並非完全免費,但提供了靈活的定價方案以滿足不同用戶的需求。
文本轉聲音

Kokorotts
Kokoro TTS 是一款強大的文本轉語音工具,支持多種語言和語音融合功能,能夠將 EPUB、PDF 和 TXT 文件轉換為高質量的語音輸出。該工具為開發者和用戶提供了靈活的語音定製選項,能夠輕鬆創建專業級音頻。其主要優點包括支持多語言、語音融合、靈活的輸入格式以及免費的商業使用許可。該產品定位為創作者、開發者和企業提供了高效、低成本的語音合成解決方案,適用於有聲書創作、視頻旁白、播客製作、教育內容生成以及客戶服務等多個場景。
文本轉聲音