Mooncake : 领先的LLM服务提供平台

Mooncake

AI模型 #LLM服务 #解耦架构 #KVCache #高性能 #开源普通产品开源

简介 :

Mooncake是Kimi的服务平台，由Moonshot AI提供，是一个领先的大型语言模型(LLM)服务。它采用了以KVCache为中心的解耦架构，通过分离预填充(prefill)和解码(decoding)集群，以及利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的解耦缓存。Mooncake的核心是其KVCache中心调度器，它在确保满足延迟相关的服务级别目标(SLOs)要求的同时，平衡最大化整体有效吞吐量。与传统研究不同，Mooncake面对的是高度过载的场景，为此开发了基于预测的早期拒绝策略。实验表明，Mooncake在长上下文场景中表现出色，与基线方法相比，在某些模拟场景中吞吐量可提高525%，同时遵守SLOs。在实际工作负载下，Mooncake的创新架构使Kimi能够处理75%以上的请求。

需求人群 :

目标受众为需要高性能、高吞吐量的大型语言模型服务的企业和开发者。Mooncake的架构和调度策略特别适合处理大规模数据和复杂查询，满足对实时性要求高的应用场景，如智能客服、自然语言处理等。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 56.6K

使用场景

智能客服系统利用Mooncake处理用户查询，提高响应速度和准确性。

自然语言处理应用通过Mooncake进行文本分析，优化信息提取和语义理解。

大型数据分析平台使用Mooncake进行数据预处理和模式识别，提升数据处理能力。

产品特色

KVCache中心调度器，优化整体有效吞吐量和延迟SLOs。

解耦架构，分离预填充和解码集群，提高资源利用率。