ultravox-v0_4_1-llama-3_1-8b
U
Ultravox V0 4 1 Llama 3 1 8b
簡介 :
fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一個基於預訓練的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型語言模型,能夠處理語音和文本輸入,生成文本輸出。該模型通過特殊的<|audio|>偽標記將輸入音頻轉換為嵌入,並生成輸出文本。未來版本計劃擴展標記詞彙以支持生成語義和聲學音頻標記,進而可以用於聲碼器產生語音輸出。該模型在翻譯評估中表現出色,且沒有偏好調整,適用於語音代理、語音到語音翻譯、語音分析等場景。
需求人群 :
目標受眾為需要處理語音和文本數據的開發者和企業,如語音識別、語音翻譯、語音分析等領域的專業人士。Ultravox的多模態處理能力和高性能使其成為這些領域的理想選擇。
總訪問量: 29.7M
佔比最多地區: US(17.94%)
本站瀏覽量 : 51.3K
使用場景
- 作為語音代理,回答用戶問題。
- 進行語音到語音的翻譯,幫助跨語言溝通。
- 分析語音指令,執行特定任務。
產品特色
- 多模態輸入處理:同時處理語音和文本輸入。
- 特殊標記處理:使用<|audio|>標記處理音頻輸入。
- 文本生成:基於合併的嵌入生成輸出文本。
- 語音到語音翻譯:適用於不同語言間的語音翻譯。
- 語音分析:分析語音內容並生成相關文本。
- 未來支持聲學音頻標記生成:計劃擴展功能以支持聲學音頻標記生成。
- 知識蒸餾損失訓練:通過知識蒸餾損失訓練模型以匹配基於文本的Llama骨幹網絡的logits。
使用教程
1. 安裝必要的庫:pip install transformers peft librosa。
2. 導入庫:import transformers, numpy as np, librosa。
3. 加載模型:pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)。
4. 加載音頻文件:audio, sr = librosa.load(path, sr=16000)。
5. 準備輸入:定義系統角色和內容,構建turns列表。
6. 調用模型:pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase