ultravox-v0_4_1-llama-3_1-70b
U
Ultravox V0 4 1 Llama 3 1 70b
簡介 :
fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一個基於預訓練的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型語言模型,能夠處理語音和文本輸入,生成文本輸出。該模型通過特殊偽標記<|audio|>將輸入音頻轉換為嵌入,並與文本提示合併後生成輸出文本。Ultravox的開發旨在擴展語音識別和文本生成的應用場景,如語音代理、語音到語音翻譯和口語音頻分析等。該模型遵循MIT許可,由Fixie.ai開發。
需求人群 :
目標受眾為需要處理語音和文本數據的開發者和企業,如語音識別、語音翻譯、口語音頻分析等領域的專業人士。Ultravox的多模態特性使其成為這些領域的理想選擇,因為它能夠提供更自然、更靈活的交互方式,並提高語音和文本處理的準確性和效率。
總訪問量: 29.7M
佔比最多地區: US(17.94%)
本站瀏覽量 : 46.6K
使用場景
作為語音代理,處理用戶的語音查詢並提供文本回復。
進行語音到語音的翻譯,將一種語言的語音轉換為另一種語言的語音輸出。
分析口語音頻,提取關鍵信息並生成文本摘要。
產品特色
• 語音和文本輸入處理:能夠同時處理語音和文本輸入,提高交互的自然性和靈活性。
• 特殊偽標記<|audio|>:通過該標記,模型能夠識別並處理音頻輸入。
• 音頻嵌入:將輸入音頻轉換為嵌入,與文本提示合併後生成輸出文本。
• 多模態適配器訓練:僅訓練多模態適配器,保持Whisper編碼器和Llama凍結。
• 知識蒸餾損失:通過知識蒸餾損失,Ultravox嘗試匹配基於文本的Llama骨幹的logits。
• 支持多種語言:支持15種語言,增強了模型的國際化應用能力。
• 模型參數:擁有58.7M參數,使用BF16張量類型,提高了模型的計算效率。
使用教程
1. 安裝必要的庫:使用pip安裝transformers、peft和librosa庫。
2. 導入庫:在代碼中導入transformers、numpy和librosa庫。
3. 加載模型:使用transformers.pipeline加載'fixie-ai/ultravox-v0_4_1-llama-3_1-70b'模型。
4. 音頻處理:使用librosa庫加載音頻文件並獲取音頻數據和採樣率。
5. 定義交互:定義一個包含系統角色和內容的turns列表。
6. 調用模型:將音頻數據、turns列表和採樣率作為參數調用模型,並設置max_new_tokens參數以控制生成文本的長度。
7. 獲取結果:模型將生成文本輸出,可以用於進一步的處理或直接展示給用戶。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase