Tele-FLM-1T
T
Tele FLM 1T
簡介 :
Tele-FLM-1T是一個開源的1T多語言大型語言模型,基於解碼器僅Transformer架構,經過約2T tokens的訓練。該模型在規模上展現出卓越的性能,有時甚至超越了更大的模型。除了分享模型權重外,還提供了核心設計、工程實踐和訓練細節,期待對學術和工業社區都有所裨益。
需求人群 :
目標受眾為需要使用大型語言模型進行文本生成、機器翻譯、問答系統等自然語言處理任務的研究人員和開發者。
總訪問量: 29.7M
佔比最多地區: US(17.94%)
本站瀏覽量 : 46.1K
使用場景
用於生成高質量的多語言文本內容
作為多語言機器翻譯系統的核心模型
在問答系統中提供準確的信息檢索和回答
產品特色
基於增長技術,分為52B、102B和1TB三個訓練階段
使用標準GPT風格的解碼器僅Transformer架構,包含若干調整
Rotary Positional Embedding (RoPE)、RMSNorm和SwiGLU激活函數
與Llama架構兼容,代碼調整最小化
在112個A800 SXM4 GPU服務器集群上訓練,每個服務器有8個NVLink A800 GPU和2TB RAM
採用3D並行訓練,結合數據並行、張量並行和流水線並行
提供模型權重和訓練細節,促進社區使用和研究
使用教程
1. 訪問Hugging Face模型庫並找到Tele-FLM-1T模型
2. 閱讀模型卡片,瞭解模型的詳細信息和使用限制
3. 下載模型權重和相關代碼
4. 根據提供的工程實踐和訓練細節調整模型以適應特定任務
5. 在本地或雲環境中部署模型進行訓練或推理
6. 使用模型進行文本生成或其他NLP任務
7. 分享使用經驗和反饋,促進社區發展
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase