FP6-LLM
F
FP6 LLM
简介 :
FP6-LLM是一种用于大型语言模型的全新支持方案,通过六位量化(FP6)有效地减小了模型大小,并在各种应用中始终保持模型质量。我们提出了TC-FPx,这是第一个完整的GPU内核设计方案,统一支持各种量化位宽的浮点权重。我们将TC-FPx内核集成到现有推理系统中,为量化的LLM推理提供了全新的端到端支持(称为FP6-LLM),实现了推理成本和模型质量之间更好的权衡。实验证明,FP6-LLM使得使用单个GPU进行LLaMA-70b推理成为可能,实现的规范化推理吞吐量比FP16基准高1.69倍至2.65倍。
需求人群 :
适用于需要大型语言模型支持的推理场景,特别是对推理成本和模型质量有严格要求的情况。
总访问量: 29.7M
占比最多地区: US(17.94%)
本站浏览量 : 60.7K
使用场景
科研机构使用FP6-LLM进行大规模语言模型推理
软件公司将FP6-LLM集成到其自然语言处理应用中
数据中心利用FP6-LLM实现大规模语言模型推理加速
产品特色
六位量化模型支持
统一支持各种量化位宽的浮点权重
提供端到端支持,实现更好的推理成本和模型质量权衡
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase