Skywork-MoE
S
Skywork MoE
簡介 :
Skywork-MoE是一個具有146億參數的高性能混合專家(MoE)模型,包含16個專家和22億激活參數。該模型從Skywork-13B模型的密集型檢查點初始化而來,並引入了兩種創新技術:門控邏輯歸一化增強專家多樣化,以及自適應輔助損失係數允許層特定的輔助損失係數調整。Skywork-MoE在性能上與參數更多或激活參數更多的模型如Grok-1、DBRX、Mistral 8*22和Deepseek-V2相當或更優。
需求人群 :
Skywork-MoE模型適合需要處理大規模語言模型訓練和推理的研究人員和開發者。它的高參數量和專家多樣化技術使其在處理複雜語言任務時表現出色,同時自適應輔助損失係數的調整能力允許模型針對特定層進行優化,提高模型性能和效率。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 54.1K
使用場景
在C-Eval、MMLU、CMMLU等流行基準測試上的評估
使用HuggingFace進行Skywork-MoE-Base模型的推理示例
基於vLLM的Skywork-MoE-Base模型快速部署示例
產品特色
Gating Logit Normalization技術,增強專家多樣化
Adaptive Auxiliary Loss Coefficients技術,允許層特定的輔助損失係數調整
與Hugging Face、ModelScope、Wisemodel等平臺兼容
支持在8xA100/A800或更高GPU硬件配置上進行推理
提供vLLM模型推理的快速部署方法
支持fp8精度,可在8*4090上運行Skywork-MoE-Base模型
提供詳細的技術報告和社區許可協議
使用教程
安裝必要的依賴,包括pytorch-nightly版本和vllm-flash-attn
克隆Skywork提供的vllm源代碼
根據本地環境配置並編譯安裝vllm
使用docker運行vllm,設置模型路徑和工作目錄
通過vllm的LLM類和SamplingParams類進行文本生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase