T3 : 透明跟蹤和觸發，細粒度計算與集合的重疊

AI模型推理訓練 AI模型 #分佈式技術 #硬件-軟件共同設計 #計算重疊 #通信效率普通產品開源

簡介 :

大型語言模型在訓練和推斷中越來越依賴於分佈式技術。這些技術需要在設備之間進行通信，隨著設備數量的增加，這可能會降低擴展效率。雖然一些分佈式技術可以重疊，從而隱藏獨立計算的通信，但類似張量並行（TP）的技術固有地將通信與模型執行串行化。隱藏這種串行化通信的一種方法是以細粒度的方式將其與生產者操作（通信數據的產生）交錯在一起。然而，在軟件中實現這種細粒度的通信和計算交錯可能很困難。此外，與任何併發執行一樣，它需要在計算和通信之間共享計算和內存資源，導致資源爭用，從而降低了重疊效率。為了克服這些挑戰，我們提出了T3，它應用硬件-軟件共同設計，透明地重疊串行通信，同時最小化與計算的資源爭用。T3通過簡單配置生產者的輸出地址空間，透明地融合了生產者操作和隨後的通信，需要進行輕微的軟件更改。在硬件層面，T3添加了輕量級的跟蹤和觸發機制，以編排生產者的計算和通信。它進一步利用增強計算的存儲器來進行通信的相關計算。因此，T3減少了資源爭用，並有效地將串行通信與計算重疊。對於重要的Transformer模型，如T-NLG，T3將通信密集型子層的速度提高了30%的幾何平均值（最大47%），並將數據移動減少了22%的幾何平均值（最大36%）。此外，隨著模型的擴展，T3的好處仍然存在：對於sim500億參數模型的子層，幾何平均值為29%，PALM和MT-NLG。

需求人群 :

適用於大型語言模型的訓練和推斷過程中的分佈式技術

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 46.1K

使用場景

用於加速大型語言模型T-NLG的訓練過程

在PALM和MT-NLG等模型的推斷中提高通信效率

適用於需要最大化計算和通信重疊的場景

產品特色

透明地重疊串行通信和計算

最小化與計算的資源爭用