DeepSeek 开源 EPLB,世界上从来没有什么腾空出世!

deepseek开源DualPipe的同一天,还开源了EPLB。 今天来简单聊聊EPLB,包懂。 EPLB是干嘛的?

deepseek开源DualPipe的同一天,还开源了EPLB。今天来简单聊聊EPLB,包懂。

1. EPLB是干嘛的?

DeepSeek 开源 EPLB,世界上从来没有什么腾空出世!

EPLB,Expert Parallelism Load Balancer,是一个动态负载均衡算法。

在使用专家并行EP时,不同专家会被分配到不同的GPU,而这些GPU的负载可能不均衡,此时就需要EPLB啦。

(1) 什么是专家并行EP?

专家并行EP,Expert Parallelism,是一种针对混合专家MOE设计的分布式并行技术。

(2) 什么是混合专家MOE?

混合专家MOE,Mixture of Experts,是deepseek大模型的核心创新应用,该模型思路不再追求大而全,转而追求多而专精。

关于混合专家MOE,详见:《通俗讲解deepseek - MOE(3)》

混合专家MOE与专家并行EP,deepseek之前开源了其核心通讯库,详见:《通俗讲解deepseek开源 - DeepEP(10)》

2. EPLB是怎么做到负载均衡的?

EPLB像一个智能调度员,根据不同的场景调度专家进行计算,其负载均衡算法包含两类核心策略。

第一类:分级负载均衡。

使用场景:预填充阶段(prefilling stage),规模较小,服务器节点数(server nodes)能被专家组数(expert groups)整除的情况。

策略步骤:

  • 专家组分配(pack to)到节点,保证节点负载均衡;
  • 节点内复制专家;
  • 专家分配到GPUs,保证GPUs负载均衡;

第二类:全局负载均衡。

使用场景:解码阶段(decoding stage),规模较大的情况。

策略步骤:

  • 全局复制专家,不管专家在哪个组;
  • 专家分配到GPUs,保证GPUs负载均衡;

总而言之,保证负载均衡,充分发挥GPUs的潜力,提升训练效率,缩短训练时间。

3. 举个实际的例子?

DeepSeek-V3训练部署:

  • 2048个NVIDIA H800;
  • 256个服务器节点(每节点8GPU);
  • 专家组数为64(EP-64);

接下来进行训练:

  • 预填充阶段,一个专家组,例如Java+ FE+ QA+OP分配4个服务器节点,保证节点资源分配均衡;
  • 专家冗余策略,当发现某个GPU负载超过阈值时,复制专家副本,分配到新的GPU。也就是说,Java成为项目瓶颈时,我们就组内复制多个Java;
  • 原则上专家组之间避免全局通讯,而在有限节点内通讯,降低全局通讯压力;

画外音:全局通讯复杂度会指数级上升,只需要少量跨组协同。

  • 解码阶段,需要大量QA工程师,这个时候切换为全局策略,忽略专家组物理拓扑限制,跨节点全局复制QA工程师,加速项目进度;

总的来说,几个核心设计思路:

  • 分级调度策略:先节点均衡,再GPU均衡;
  • 冗余专家策略:谁是瓶颈复制谁,保证均衡;
  • 就近通讯策略:减少全局通讯;
  • 动态切换策略:高峰期打破限制;

分级,冗余,就近,动态... 工程架构领域,哪有什么新鲜事,可偏偏在deepseek手里大放异彩。

. 一些启示

通过deepseek的一系列开源:

《通俗讲解deepseek开源 - FlashMLA》

《通俗讲解deepseek开源 - DeepEP》

《通俗讲解deepseek开源 - DeepGEMM》

《通俗讲解deepseek开源 - DualPipe》

哪一个是惊世骇俗?

  • MLA:对显卡计算加速;
  • DeepEP:对通讯加速;
  • GEMM:对矩阵乘法加速;
  • DualPipe:对前向/反向传播加速;
  • EPLB:负载均衡充分利用资源;
  • 3FS:文件系统加速(明天讲解);
  • ...

世界上哪有什么腾空出世,deepseek的成功,完全出自一天天的脚踏实地,一天天的日积月累之中。积跬步,至千里。人的成功,也一样。诸君共勉!

相关资讯

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

今日,国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies(优化并行策略),重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB,以及对计算-通信重叠机制的深度优化。 此次技术升级直击大规模语言模型训练的核心痛点,为超万卡级集群的高效运行提供了全新解决方案。 DualPipe:双向管道并行算法作为本次升级的核心技术之一,DualPipe专为V3/R1架构设计,通过创新的双向数据流管道,实现计算与通信的高度重叠。

DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价

实现顶级 AI 性能的秘诀,就在这里了。 DeepSeek 的开源周已经进行到了第四天(前三天报道见文末「相关阅读」)。 今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据。

“DeepSeek出了一个昏招!”

前两天和几个朋友聚会,有个朋友说:“DeepSeek这么厉害,为什么要开源? 美国人都知道了,那着高端显卡一练,一下子就把你超了,开源就是昏招,你看人家OpenAI就不开源。 ”我虽然当了很久的码农,也知道开源的巨大好处,但是他突然这么一说,我一时还不好反驳。