Mistral-Nemo-Base-2407
M
Mistral Nemo Base 2407
簡介 :
Mistral-Nemo-Base-2407是由Mistral AI和NVIDIA聯合訓練的12B參數大型預訓練生成文本模型。該模型在多語言和代碼數據上進行了訓練,顯著優於相同或更小規模的現有模型。其主要特點包括:Apache 2.0許可證發佈,支持預訓練和指令版本,128k上下文窗口訓練,支持多種語言和代碼數據,是Mistral 7B的替代品。模型架構包括40層、5120維、128頭維、14364隱藏維、32頭數、8個kv頭(GQA)、詞彙量約128k、旋轉嵌入(theta=1M)。該模型在多個基準測試中表現出色,如HellaSwag、Winogrande、OpenBookQA等。
需求人群 :
Mistral-Nemo-Base-2407模型適合需要進行高質量文本生成的開發者和研究人員。其多語言和代碼數據訓練能力使其在多語言文本生成、代碼生成等領域具有優勢。同時,其預訓練和指令版本的特性也使其在自然語言處理任務中具有廣泛的應用前景。
總訪問量: 29.7M
佔比最多地區: US(17.94%)
本站瀏覽量 : 56.0K
使用場景
用於生成高質量的多語言文本,如新聞文章、博客文章等
在編程領域,輔助生成代碼或文檔
在教育領域,輔助學生理解和生成自然語言文本
產品特色
支持多種語言和代碼數據的文本生成
128k上下文窗口訓練,提升文本理解和生成能力
預訓練和指令版本,滿足不同應用需求
Apache 2.0許可證發佈,使用靈活
模型架構包括40層、5120維、128頭維,優化模型性能
在多個基準測試中表現出色,如HellaSwag、Winogrande等
支持多種框架使用,如mistral_inference、transformers、NeMo
使用教程
1. 安裝mistral_inference:推薦使用mistralai/Mistral-Nemo-Base-2407與mistral-inference。
2. 下載模型:使用Hugging Face Hub的snapshot_download函數下載模型文件。
3. 安裝transformers:如果需要使用Hugging Face transformers生成文本,需要從源代碼安裝transformers。
4. 使用模型:通過AutoModelForCausalLM和AutoTokenizer加載模型和分詞器,輸入文本並生成輸出。
5. 調整參數:與之前的Mistral模型不同,Mistral Nemo需要較小的溫度,推薦使用0.3。
6. 運行演示:安裝mistral_inference後,環境中應可用mistral-demo CLI命令。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase