Mooncake : 領先的LLM服務提供平臺

Mooncake

AI模型 #LLM服務 #解耦架構 #KVCache #高性能 #開源普通產品開源

簡介 :

Mooncake是Kimi的服務平臺，由Moonshot AI提供，是一個領先的大型語言模型(LLM)服務。它採用了以KVCache為中心的解耦架構，通過分離預填充(prefill)和解碼(decoding)集群，以及利用GPU集群中未充分利用的CPU、DRAM和SSD資源來實現KVCache的解耦緩存。Mooncake的核心是其KVCache中心調度器，它在確保滿足延遲相關的服務級別目標(SLOs)要求的同時，平衡最大化整體有效吞吐量。與傳統研究不同，Mooncake面對的是高度過載的場景，為此開發了基於預測的早期拒絕策略。實驗表明，Mooncake在長上下文場景中表現出色，與基線方法相比，在某些模擬場景中吞吐量可提高525%，同時遵守SLOs。在實際工作負載下，Mooncake的創新架構使Kimi能夠處理75%以上的請求。

需求人群 :

目標受眾為需要高性能、高吞吐量的大型語言模型服務的企業和開發者。Mooncake的架構和調度策略特別適合處理大規模數據和複雜查詢，滿足對即時性要求高的應用場景，如智能客服、自然語言處理等。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 55.8K

使用場景

智能客服系統利用Mooncake處理用戶查詢，提高響應速度和準確性。

自然語言處理應用通過Mooncake進行文本分析，優化信息提取和語義理解。

大型數據分析平臺使用Mooncake進行數據預處理和模式識別，提升數據處理能力。

產品特色

KVCache中心調度器，優化整體有效吞吐量和延遲SLOs。

解耦架構，分離預填充和解碼集群，提高資源利用率。