T-MAC
T
T MAC
簡介 :
T-MAC是一個內核庫,通過使用查找表直接支持混合精度矩陣乘法,無需去量化操作,旨在加速CPU上的低比特大型語言模型推理。它支持多種低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16以及OSX/Linux/Windows上的ARM/Intel CPU的BitNet W1(.58)A8。T-MAC在Surface Laptop 7上實現了3B BitNet的令牌生成吞吐量,單核每秒20個,四核每秒48個,比現有最先進的CPU低比特框架(llama.cpp)快4~5倍。
需求人群 :
T-MAC主要面向需要在CPU上進行大型語言模型推理的開發者和企業,特別是那些尋求在邊緣設備上實現即時或近即時推理性能的應用場景。它適用於需要優化能耗和計算資源的場合,如移動設備、嵌入式系統或任何資源受限的環境。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 53.8K
使用場景
在Surface Laptop 7上使用T-MAC進行3B BitNet模型的推理,實現了顯著的速度提升。
在Snapdragon X Elite芯片上,通過T-MAC實現了與NPU相當的性能,同時減少了模型大小。
在Jetson AGX Orin上,T-MAC與CUDA GPU相比,在特定任務上展示了能耗優勢。
產品特色
支持1/2/3/4位量化的Llama模型在GPTQ格式下的推理。
在最新的Snapdragon X Elite芯片上,T-MAC的令牌生成速度甚至超過了NPU。
原生支持Windows ARM上的部署,T-MAC在Surface Laptop 7上展示了顯著的5倍速度提升。
通過使用查找表,T-MAC顯著減少了CPU核心的使用,同時降低了功耗和能耗。
與NPU相比,在Snapdragon X Elite芯片上,T-MAC的CPU性能優於高通驍龍神經處理引擎(NPE)。
與CUDA GPU相比,在Jetson AGX Orin上,T-MAC的2位mpGEMM性能與CUDA GPU相當。
使用教程
安裝Python環境,確保版本為3.8以滿足TVM的要求。
根據操作系統的不同,安裝cmake>=3.22和其他依賴項。
在虛擬環境中使用pip安裝T-MAC,並激活相應的環境變量。
使用提供的工具腳本進行端到端推理,或與llama.cpp集成進行特定任務的推理。
根據需要調整參數,如使用-fa開啟快速聚合以獲得額外的速度提升。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase