Zonos-v0.1-hybrid 是由 Zyphra 開發的一款開源文本轉語音模型,它能夠根據文本提示生成高度自然的語音。該模型經過大量英語語音數據訓練,採用 eSpeak 進行文本歸一化和音素化,再通過變換器或混合骨幹網絡預測 DAC 令牌。它支持多種語言,包括英語、日語、中文、法語和德語,並且可以對生成語音的語速、音調、音頻質量和情緒等進行精細控制。此外,它還具備零樣本語音克隆功能,僅需 5 到 30 秒的語音樣本即可實現高保真語音克隆。該模型在 RTX 4090 上的即時因子約為 2 倍,運行速度較快。它還配備了易於使用的 gradio 界面,並且可以通過 Docker 文件簡單安裝和部署。目前,該模型在 Hugging Face 上提供,用戶可以免費使用,但需要自行部署。