EasyContext
E
Easycontext
簡介 :
EasyContext是一個開源項目,旨在通過結合多種技術手段,實現使用普通硬件訓練語言模型的上下文長度達到100萬詞元。主要採用的技術包括序列並行、Deepspeed zero3離載、Flash注意力以及激活checkpoint等。該項目不提出新的創新點,而是展示如何組合現有的技術手段來實現這一目標。已成功訓練出Llama-2-7B和Llama-2-13B兩個模型,分別在8塊A100和16塊A100上實現了700K和1M詞元的上下文長度。
需求人群 :
用於訓練具有超長上下文的語言模型
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 53.5K
使用場景
使用EasyContext在8塊A100上訓練Llama-2-7B模型,實現了700K詞元的上下文長度
使用EasyContext在16塊A100上訓練Llama-2-13B模型,實現了1M詞元的上下文長度
通過組合現有技術手段,EasyContext大幅提升了語言模型的上下文長度,為視頻生成等應用奠定了基礎
產品特色
序列並行
Deepspeed zero3離載
Flash注意力和融合交叉熵核心
激活checkpoint
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase