

T MAC
簡介 :
T-MAC是一個內核庫,通過使用查找表直接支持混合精度矩陣乘法,無需去量化操作,旨在加速CPU上的低比特大型語言模型推理。它支持多種低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16以及OSX/Linux/Windows上的ARM/Intel CPU的BitNet W1(.58)A8。T-MAC在Surface Laptop 7上實現了3B BitNet的令牌生成吞吐量,單核每秒20個,四核每秒48個,比現有最先進的CPU低比特框架(llama.cpp)快4~5倍。
需求人群 :
T-MAC主要面向需要在CPU上進行大型語言模型推理的開發者和企業,特別是那些尋求在邊緣設備上實現即時或近即時推理性能的應用場景。它適用於需要優化能耗和計算資源的場合,如移動設備、嵌入式系統或任何資源受限的環境。
使用場景
在Surface Laptop 7上使用T-MAC進行3B BitNet模型的推理,實現了顯著的速度提升。
在Snapdragon X Elite芯片上,通過T-MAC實現了與NPU相當的性能,同時減少了模型大小。
在Jetson AGX Orin上,T-MAC與CUDA GPU相比,在特定任務上展示了能耗優勢。
產品特色
支持1/2/3/4位量化的Llama模型在GPTQ格式下的推理。
在最新的Snapdragon X Elite芯片上,T-MAC的令牌生成速度甚至超過了NPU。
原生支持Windows ARM上的部署,T-MAC在Surface Laptop 7上展示了顯著的5倍速度提升。
通過使用查找表,T-MAC顯著減少了CPU核心的使用,同時降低了功耗和能耗。
與NPU相比,在Snapdragon X Elite芯片上,T-MAC的CPU性能優於高通驍龍神經處理引擎(NPE)。
與CUDA GPU相比,在Jetson AGX Orin上,T-MAC的2位mpGEMM性能與CUDA GPU相當。
使用教程
安裝Python環境,確保版本為3.8以滿足TVM的要求。
根據操作系統的不同,安裝cmake>=3.22和其他依賴項。
在虛擬環境中使用pip安裝T-MAC,並激活相應的環境變量。
使用提供的工具腳本進行端到端推理,或與llama.cpp集成進行特定任務的推理。
根據需要調整參數,如使用-fa開啟快速聚合以獲得額外的速度提升。
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M