語音合成

# 語音合成

CloneGen

CloneGen是一款利用先進的人工智能技術實現聲音克隆和文字轉語音的應用。通過創新的聲音合成技術，用戶可以輕鬆製作個性化的聲音內容，探索聲音藝術的樂趣。

EaseVoice Trainer

Easevoice Trainer

EaseVoice Trainer 是一個後端項目，旨在簡化和增強語音合成與轉換訓練過程。該項目基於 GPT-SoVITS 進行改進，注重用戶體驗和系統的可維護性。其設計理念不同於原始項目，旨在提供更模塊化和定製化的解決方案，適用於從小規模實驗到大規模生產的多種場景。該工具可以幫助開發者和研究人員更高效地進行語音合成和轉換的研究與開發。

開發與工具

MegaTTS 3

MegaTTS 3 是由字節跳動開發的一款基於 PyTorch 的高效語音合成模型，具有超高質量的語音克隆能力。其輕量級架構只包含 0.45B 參數，支持中英文及代碼切換，能夠根據輸入文本生成自然流暢的語音，廣泛應用於學術研究和技術開發。

OpenAI.fm

OpenAI.fm 是一個互動演示平臺，允許開發者體驗 OpenAI API 中的最新文本轉語音模型gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。該技術能夠生成自然流暢的語音，使得文本內容生動而易於理解。它適用於各種應用場景，尤其是在語音助手和內容創作方面，能夠幫助開發者更好地與用戶溝通，提升用戶體驗。該產品定位於高效的語音合成，適合希望整合語音功能的開發者。

Orpheus TTS

Orpheus TTS 是一個基於 Llama-3b 模型的開源文本轉語音系統，旨在提供更加自然的人類語音合成。它具備較強的語音克隆能力和情感表達能力，適合各種即時應用場景。該產品是免費的，旨在為開發者和研究者提供便捷的語音合成工具。

文本轉聲音

CSM 1B

CSM 1B 是一個基於 Llama 架構的語音生成模型，能夠從文本和音頻輸入中生成 RVQ 音頻代碼。該模型主要應用於語音合成領域，具有高質量的語音生成能力。其優勢在於能夠處理多說話人的對話場景，並通過上下文信息生成自然流暢的語音。該模型開源，旨在為研究和教育目的提供支持，但明確禁止用於冒充、欺詐或非法活動。

Sesame CSM

CSM 是一個由 Sesame 開發的對話式語音生成模型，它能夠根據文本和音頻輸入生成高質量的語音。該模型基於 Llama 架構，並使用 Mimi 音頻編碼器。它主要用於語音合成和交互式語音應用，例如語音助手和教育工具。CSM 的主要優點是能夠生成自然流暢的語音，並且可以通過上下文信息優化語音輸出。該模型目前是開源的，適用於研究和教育目的。

Sesame AI

Sesame AI 代表了下一代語音合成技術，通過結合先進的人工智能技術和自然語言處理，能夠生成極其逼真的語音，具備真實的情感表達和自然的對話流程。該平臺在生成類似人類的語音模式方面表現出色，同時能夠保持一致的性格特徵，非常適合內容創作者、開發者和企業，用於為其應用程序增添自然語音功能。目前尚不清楚其具體價格和市場定位，但其強大的功能和廣泛的應用場景使其在市場上具有較高的競爭力。

Spark-TTS

Spark-TTS 是一種基於大語言模型的高效文本到語音合成模型，具有單流解耦語音令牌的特性。它利用大語言模型的強大能力，直接從代碼預測的音頻進行重建，省略了額外的聲學特徵生成模型，從而提高了效率並降低了複雜性。該模型支持零樣本文本到語音合成，能夠跨語言和代碼切換場景，非常適合需要高自然度和準確性的語音合成應用。它還支持虛擬語音創建，用戶可以通過調整參數（如性別、音高和語速）來生成不同的語音。該模型的背景是為了解決傳統語音合成系統中效率低下和複雜性高的問題，旨在為研究和生產提供高效、靈活且強大的解決方案。目前，該模型主要面向學術研究和合法應用，如個性化語音合成、輔助技術和語言研究等。

文本轉聲音

Llasa

Llasa是一個基於Llama框架的文本到語音（TTS）基礎模型，專為大規模語音合成任務設計。該模型利用16萬小時的標記化語音數據進行訓練，具備高效的語言生成能力和多語言支持。其主要優點包括強大的語音合成能力、低推理成本和靈活的框架兼容性。該模型適用於教育、娛樂和商業場景，能夠為用戶提供高質量的語音合成解決方案。目前該模型在Hugging Face上免費提供，旨在推動語音合成技術的發展和應用。

文本轉聲音

Octave TTS

Octave TTS 是由 Hume AI 開發的下一代語音合成模型，它不僅能夠將文本轉換為語音，還能理解文本的語義和情感，從而生成富有表現力的語音輸出。該技術的核心優勢在於其對語言的深度理解能力，使其能夠根據上下文生成自然、生動的語音，適用於多種應用場景，如有聲讀物、虛擬助手和情感化語音交互等。Octave TTS 的出現標誌著語音合成技術從簡單的文本朗讀向更具表現力和交互性的方向發展，為用戶提供更加個性化和情感化的語音體驗。目前，該產品主要面向開發者和創作者，通過 API 和平臺提供服務，未來有望擴展到更多語言和應用場景。

文本轉聲音

IndexTTS

IndexTTS 是一種基於 GPT 風格的文本到語音（TTS）模型，主要基於 XTTS 和 Tortoise 進行開發。它能夠通過拼音糾正漢字發音，並通過標點符號控制停頓。該系統在中文場景中引入了字符-拼音混合建模方法，顯著提高了訓練穩定性、音色相似性和音質。此外，它還集成了 BigVGAN2 來優化音頻質量。該模型在數萬小時的數據上進行訓練，性能超越了當前流行的 TTS 系統，如 XTTS、CosyVoice2 和 F5-TTS。IndexTTS 適用於需要高質量語音合成的場景，如語音助手、有聲讀物等，其開源性質也使其適合學術研究和商業應用。

文本轉聲音

星聲AI

星聲AI是一款專注於生成AI播客的工具。它利用先進的LLM模型（如kimi）和TTS模型（如Minimax Speech-01-Turbo），能夠將文本內容快速轉化為生動的播客。該技術的主要優點在於高效的內容生成能力，能夠幫助創作者快速製作播客，節省時間和精力。星聲AI適合內容創作者、播客愛好者以及需要快速生成音頻內容的用戶。其定位是為用戶提供便捷的播客生成解決方案，目前暫無明確價格信息。

Zonos-v0.1-hybrid

Zonos V0.1 Hybrid

Zonos-v0.1-hybrid 是由 Zyphra 開發的一款開源文本轉語音模型，它能夠根據文本提示生成高度自然的語音。該模型經過大量英語語音數據訓練，採用 eSpeak 進行文本歸一化和音素化，再通過變換器或混合骨幹網絡預測 DAC 令牌。它支持多種語言，包括英語、日語、中文、法語和德語，並且可以對生成語音的語速、音調、音頻質量和情緒等進行精細控制。此外，它還具備零樣本語音克隆功能，僅需 5 到 30 秒的語音樣本即可實現高保真語音克隆。該模型在 RTX 4090 上的即時因子約為 2 倍，運行速度較快。它還配備了易於使用的 gradio 界面，並且可以通過 Docker 文件簡單安裝和部署。目前，該模型在 Hugging Face 上提供，用戶可以免費使用，但需要自行部署。

文本轉聲音

LLaSA_training

LLaSA_training 是一個基於 LLaMA 的語音合成訓練項目，旨在通過優化訓練時間和推理時間的計算資源，提升語音合成模型的效率和性能。該項目利用開源數據集和內部數據集進行訓練，支持多種配置和訓練方式，具有較高的靈活性和可擴展性。其主要優點包括高效的數據處理能力、強大的語音合成效果以及對多種語言的支持。該項目適用於需要高性能語音合成解決方案的研究人員和開發者，可用於開發智能語音助手、語音播報系統等應用場景。

模型訓練與部署

Llasa-1B

Llasa-1B 是一個由香港科技大學音頻實驗室開發的文本轉語音模型。它基於 LLaMA 架構，通過結合 XCodec2 代碼本中的語音標記，能夠將文本轉換為自然流暢的語音。該模型在 25 萬小時的中英文語音數據上進行了訓練，支持從純文本生成語音，也可以利用給定的語音提示進行合成。其主要優點是能夠生成高質量的多語言語音，適用於多種語音合成場景，如有聲讀物、語音助手等。該模型採用 CC BY-NC-ND 4.0 許可證，禁止商業用途。

文本轉聲音

Llasa-3B

Llasa-3B 是一個強大的文本到語音（TTS）模型，基於 LLaMA 架構開發，專注於中英文語音合成。該模型通過結合 XCodec2 的語音編碼技術，能夠將文本高效地轉換為自然流暢的語音。其主要優點包括高質量的語音輸出、支持多語言合成以及靈活的語音提示功能。該模型適用於需要語音合成的多種場景，如有聲讀物製作、語音助手開發等。其開源性質也使得開發者可以自由探索和擴展其功能。

文本轉聲音

AI ContentCraft

AI ContentCraft

AI ContentCraft 是一個強大的內容創作平臺，旨在幫助創作者快速生成故事、播客腳本和多媒體內容。它通過集成文本生成、語音合成和圖像生成技術，為創作者提供一站式的解決方案。該工具支持中英文內容轉換，適合需要高效創作的用戶。其技術棧包括 DeepSeek AI、Kokoro TTS 和 Replicate API，確保高質量的內容生成。產品目前開源免費，適合個人和團隊使用。

Hailuo AI Audio

Hailuo AI Audio

Hailuo AI Audio利用先進的語音合成技術，將文本轉換為自然流暢的語音。其主要優點是能夠生成高質量、富有表現力的語音，適用於多種場景，如有聲讀物製作、語音播報等。該產品定位為專業級音頻合成工具，目前提供限時免費體驗，旨在為用戶提供高效、便捷的語音生成解決方案。

文本轉聲音

kokoro-onnx

kokoro-onnx是一個基於Kokoro模型和ONNX運行時的文本到語音（TTS）項目。它支持英語，並計劃支持法語、日語、韓語和中文。該模型在macOS M1上具有接近即時的快速性能，並提供多種聲音選擇，包括耳語。模型輕量級，約為300MB（量化後約為80MB）。該項目在GitHub上開源，採用MIT許可證，方便開發者集成和使用。

文本轉聲音

audiblez

Audiblez是一個利用Kokoro高質量語音合成技術，將普通電子書（.epub格式）轉換為.m4b格式有聲書的工具。它支持多種語言和聲音，用戶可以通過簡單的命令行操作完成轉換，極大地豐富了電子書的閱讀體驗，尤其適合在開車、運動等不方便閱讀的場景下使用。該工具由Claudio Santini在2025年開發，遵循MIT許可證免費開源。

文本轉聲音

Kokoro-82M

Kokoro-82M是一個由hexgrad創建並託管在Hugging Face上的文本到語音（TTS）模型。它具有8200萬參數，使用Apache 2.0許可證開源。該模型在2024年12月25日發佈了v0.19版本，並提供了10種獨特的語音包。Kokoro-82M在TTS Spaces Arena中排名第一，顯示出其在參數規模和數據使用上的高效性。它支持美國英語和英國英語，可用於生成高質量的語音輸出。

文本轉聲音

Synthesys

Synthesys是一個AI內容生成平臺，提供AI視頻、AI語音和AI圖像生成服務。它通過使用先進的人工智能技術，幫助用戶以更低的成本和更簡單的操作生成專業級別的內容。Synthesys的產品背景基於當前市場對於高質量、低成本內容生成的需求，其主要優點包括支持多種語言的超真實語音合成、無需專業設備即可生成高清視頻、以及用戶友好的界面設計。平臺的定價策略包括免費試用和不同級別的付費服務，定位於滿足不同規模企業的內容生成需求。

Voxdazz

Voxdazz是一個利用人工智能技術模仿名人聲音的在線平臺。用戶可以選擇名人的聲音模板，輸入想要說的話，Voxdazz將生成相應的視頻。這項技術基於複雜的算法，能夠模擬自然的語調、節奏和強調，非常接近人類的語音。它不僅適用於娛樂和幽默視頻的製作，還可以用於分享模仿名人的搞笑內容。Voxdazz以其高質量的語音生成和用戶友好的操作界面，為用戶提供了一個全新的娛樂和創意表達方式。

ElevenLabs Flash

Elevenlabs Flash

Flash是ElevenLabs最新推出的文本轉語音(Text-to-Speech, TTS)模型，它以75毫秒加上應用和網絡延遲的速度生成語音，是低延遲、會話型語音代理的首選模型。Flash v2僅支持英語，而Flash v2.5支持32種語言，每兩個字符消耗1個信用點。Flash在盲測中持續超越了同類超低延遲模型，是速度最快且具有質量保證的模型。

文本轉聲音

Gemini 2.0 Flash Experimental

Gemini 2.0 Flash Experimental

Gemini 2.0 Flash Experimental是Google DeepMind開發的最新AI模型，旨在提供低延遲和增強性能的智能代理體驗。該模型支持原生工具使用，並首次能夠原生創建圖像和生成語音，代表了AI技術在理解和生成多媒體內容方面的重要進步。Gemini Flash模型家族以其高效的處理能力和廣泛的應用場景，成為推動AI領域發展的關鍵技術之一。

CosyVoice 2

CosyVoice 2是由阿里巴巴集團的SpeechLab@Tongyi團隊開發的語音合成模型，它基於監督離散語音標記，並結合了兩種流行的生成模型：語言模型（LMs）和流匹配，實現了高自然度、內容一致性和說話人相似性的語音合成。該模型在多模態大型語言模型（LLMs）中具有重要的應用，特別是在交互體驗中，響應延遲和即時因素對語音合成至關重要。CosyVoice 2通過有限標量量化提高語音標記的碼本利用率，簡化了文本到語音的語言模型架構，並設計了塊感知的因果流匹配模型以適應不同的合成場景。它在大規模多語言數據集上訓練，實現了與人類相當的合成質量，並具有極低的響應延遲和即時性。

CosyVoice語音生成大模型2.0-0.5B

Cosyvoice語音生成大模型2.0 0.5B

CosyVoice語音生成大模型2.0-0.5B是一個高性能的語音合成模型，支持零樣本、跨語言的語音合成，能夠根據文本內容直接生成相應的語音輸出。該模型由通義實驗室提供，具有強大的語音合成能力和廣泛的應用場景，包括但不限於智能助手、有聲讀物、虛擬主播等。模型的重要性在於其能夠提供自然、流暢的語音輸出，極大地豐富了人機交互的體驗。

文本轉聲音

GaussianSpeech

GaussianSpeech是一種新穎的方法，它能夠從語音信號中合成高保真度的動畫序列，創建逼真、個性化的3D人頭化身。該技術通過結合語音信號與3D高斯繪製技術，捕捉人類頭部表情和細節動作，包括皮膚皺褶和更細微的面部運動。GaussianSpeech的主要優點包括即時渲染速度、自然的視覺動態效果，以及能夠呈現多樣化的面部表情和風格。該技術背後是大規模多視角音頻-視覺序列數據集的創建，以及音頻條件變換模型的開發，這些模型能夠直接從音頻輸入中提取唇部和表情特徵。

OuteTTS-0.2-500M

Outetts 0.2 500M

OuteTTS-0.2-500M是基於Qwen-2.5-0.5B構建的文本到語音合成模型，它在更大的數據集上進行了訓練，實現了在準確性、自然度、詞彙量、聲音克隆能力以及多語言支持方面的顯著提升。該模型特別感謝Hugging Face提供的GPU資助，支持了模型的訓練。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase