Slicegpt : 切片GPT：通過刪除行和列來壓縮大型語言模型

Slicegpt

簡介 :

切片GPT是一種新的後訓練稀疏化方案，它通過用較小（密集）的矩陣替換每個權重矩陣來減少網絡的嵌入維度。通過大量實驗，我們展示了切片GPT可以在保持99%、99%和90%的零-shot任務性能的前提下，移除LLAMA2-70B、OPT 66B和Phi-2模型的高達25%的模型參數（包括嵌入）。我們的切片模型在較少的GPU上運行，並且在不進行任何額外代碼優化的情況下運行速度更快：在24GB消費級GPU上，我們將LLAMA2-70B的推理總計算量減少到密集模型的64%；在40GB A100 GPU上，我們將其減少到66%。我們提供了一個新的見解，即變壓器網絡中的計算不變性，這使得切片GPT成為可能。我們希望它能激發並促進未來減少預訓練模型的內存和計算需求的新途徑。

需求人群 :

切片GPT適用於需要提高模型計算效率、減少內存佔用的場景。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 46.9K

使用場景

切片GPT可用於減少大型語言模型的內存消耗。

切片GPT可用於加速大型語言模型的推理過程。

切片GPT可用於提高預訓練模型的計算效率。

產品特色

後訓練稀疏化

模型參數壓縮