T3 : 透明跟踪和触发，细粒度计算与集合的重叠

AI模型推理训练 AI模型 #分布式技术 #硬件-软件共同设计 #计算重叠 #通信效率普通产品开源

简介 :

大型语言模型在训练和推断中越来越依赖于分布式技术。这些技术需要在设备之间进行通信，随着设备数量的增加，这可能会降低扩展效率。虽然一些分布式技术可以重叠，从而隐藏独立计算的通信，但类似张量并行（TP）的技术固有地将通信与模型执行串行化。隐藏这种串行化通信的一种方法是以细粒度的方式将其与生产者操作（通信数据的产生）交错在一起。然而，在软件中实现这种细粒度的通信和计算交错可能很困难。此外，与任何并发执行一样，它需要在计算和通信之间共享计算和内存资源，导致资源争用，从而降低了重叠效率。为了克服这些挑战，我们提出了T3，它应用硬件-软件共同设计，透明地重叠串行通信，同时最小化与计算的资源争用。T3通过简单配置生产者的输出地址空间，透明地融合了生产者操作和随后的通信，需要进行轻微的软件更改。在硬件层面，T3添加了轻量级的跟踪和触发机制，以编排生产者的计算和通信。它进一步利用增强计算的存储器来进行通信的相关计算。因此，T3减少了资源争用，并有效地将串行通信与计算重叠。对于重要的Transformer模型，如T-NLG，T3将通信密集型子层的速度提高了30%的几何平均值（最大47%），并将数据移动减少了22%的几何平均值（最大36%）。此外，随着模型的扩展，T3的好处仍然存在：对于sim500亿参数模型的子层，几何平均值为29%，PALM和MT-NLG。

需求人群 :

适用于大型语言模型的训练和推断过程中的分布式技术

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 49.4K

使用场景

用于加速大型语言模型T-NLG的训练过程

在PALM和MT-NLG等模型的推断中提高通信效率

适用于需要最大化计算和通信重叠的场景

产品特色

透明地重叠串行通信和计算

最小化与计算的资源争用