Ultravox V0 4 1 Llama 3 1 70b : 多模態語音大型語言模型

Ultravox V0 4 1 Llama 3 1 70b

ultravox-v0_4_1-llama-3_1-70b

Ultravox V0 4 1 Llama 3 1 70b

#語音識別 #文本生成 #多模態 #大型語言模型 #知識蒸餾普通產品開源

簡介 :

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一個基於預訓練的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型語言模型，能夠處理語音和文本輸入，生成文本輸出。該模型通過特殊偽標記<|audio|>將輸入音頻轉換為嵌入，並與文本提示合併後生成輸出文本。Ultravox的開發旨在擴展語音識別和文本生成的應用場景，如語音代理、語音到語音翻譯和口語音頻分析等。該模型遵循MIT許可，由Fixie.ai開發。

需求人群 :

目標受眾為需要處理語音和文本數據的開發者和企業，如語音識別、語音翻譯、口語音頻分析等領域的專業人士。Ultravox的多模態特性使其成為這些領域的理想選擇，因為它能夠提供更自然、更靈活的交互方式，並提高語音和文本處理的準確性和效率。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 46.6K

使用場景

作為語音代理，處理用戶的語音查詢並提供文本回復。

進行語音到語音的翻譯，將一種語言的語音轉換為另一種語言的語音輸出。

分析口語音頻，提取關鍵信息並生成文本摘要。

產品特色

• 語音和文本輸入處理：能夠同時處理語音和文本輸入，提高交互的自然性和靈活性。

• 特殊偽標記<|audio|>：通過該標記，模型能夠識別並處理音頻輸入。

• 音頻嵌入：將輸入音頻轉換為嵌入，與文本提示合併後生成輸出文本。

• 多模態適配器訓練：僅訓練多模態適配器，保持Whisper編碼器和Llama凍結。

• 知識蒸餾損失：通過知識蒸餾損失，Ultravox嘗試匹配基於文本的Llama骨幹的logits。

• 支持多種語言：支持15種語言，增強了模型的國際化應用能力。

• 模型參數：擁有58.7M參數，使用BF16張量類型，提高了模型的計算效率。

使用教程

1. 安裝必要的庫：使用pip安裝transformers、peft和librosa庫。

2. 導入庫：在代碼中導入transformers、numpy和librosa庫。

3. 加載模型：使用transformers.pipeline加載'fixie-ai/ultravox-v0_4_1-llama-3_1-70b'模型。

4. 音頻處理：使用librosa庫加載音頻文件並獲取音頻數據和採樣率。

5. 定義交互：定義一個包含系統角色和內容的turns列表。

6. 調用模型：將音頻數據、turns列表和採樣率作為參數調用模型，並設置max_new_tokens參數以控制生成文本的長度。

7. 獲取結果：模型將生成文本輸出，可以用於進一步的處理或直接展示給用戶。

精選AI產品推薦

抖音即創

即創工作臺是一個一站式的智能創意生產與管理平臺。它集成了視頻創作、圖文創作、直播創作等多種創意工具,可以通過AI的力量大大提高創作效率。主要功能和優勢包括:1)視頻創作:內置多種AI視頻創作工具,支持智能編劇、數字人物、一鍵成片等,可快速生成高質量視頻內容;2)圖文創作:提供智能圖文和商品圖片生成工具,可快速製作微信文章、產品詳情等圖文內容;3)直播創作:支持AI直播背景、直播文案等創作工具,可輕鬆製作抖音、快手等直播內容。定位為新創和創意從業者的創意助手,以合理價格提供創意生產全流程服務。

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase