Spark-TTS 是一種基於大語言模型的高效文本到語音合成模型,具有單流解耦語音令牌的特性。它利用大語言模型的強大能力,直接從代碼預測的音頻進行重建,省略了額外的聲學特徵生成模型,從而提高了效率並降低了複雜性。該模型支持零樣本文本到語音合成,能夠跨語言和代碼切換場景,非常適合需要高自然度和準確性的語音合成應用。它還支持虛擬語音創建,用戶可以通過調整參數(如性別、音高和語速)來生成不同的語音。該模型的背景是為了解決傳統語音合成系統中效率低下和複雜性高的問題,旨在為研究和生產提供高效、靈活且強大的解決方案。目前,該模型主要面向學術研究和合法應用,如個性化語音合成、輔助技術和語言研究等。