Deepep : DeepEP 是一个针对 Mixture-of-Experts 和专家并行通信的高效通信库。

Deepep

开发与工具模型训练与部署 #深度学习 #混合专家模型 #专家并行 #通信库 #低延迟 #高吞吐量 #GPU 加速优质新品开源

简介 :

DeepEP 是一个专为混合专家模型（MoE）和专家并行（EP）设计的通信库。它提供了高吞吐量和低延迟的全连接 GPU 内核，支持低精度操作（如 FP8）。该库针对非对称域带宽转发进行了优化，适合训练和推理预填充任务。此外，它还支持流处理器（SM）数量控制，并引入了一种基于钩子的通信-计算重叠方法，不占用任何 SM 资源。DeepEP 的实现虽然与 DeepSeek-V3 论文略有差异，但其优化的内核和低延迟设计使其在大规模分布式训练和推理任务中表现出色。

需求人群 :

该产品适用于需要在大规模分布式环境中高效运行混合专家模型（MoE）的研究人员、工程师和企业用户。它特别适合那些需要优化通信性能、降低延迟并提高计算资源利用率的深度学习项目。无论是用于训练大型语言模型还是进行高效的推理任务，DeepEP 都能提供显著的性能提升。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 51.3K

使用场景

在大规模分布式训练中，使用 DeepEP 的高吞吐量内核加速 MoE 模型的 dispatch 和 combine 操作，显著提高训练效率。

在推理阶段，利用 DeepEP 的低延迟内核进行快速解码，适合对实时性要求较高的应用场景。

通过通信-计算重叠方法，DeepEP 在不占用额外 GPU 资源的情况下，进一步优化了推理任务的性能。

产品特色

支持高吞吐量和低延迟的全连接 GPU 内核，适用于 MoE 模型的 dispatch 和 combine 操作。

优化了非对称域带宽转发，例如从 NVLink 域到 RDMA 域的数据转发。