DCLM
D
DCLM
簡介 :
DataComp-LM (DCLM) 是一個為構建和訓練大型語言模型(LLMs)而設計的綜合性框架,提供了標準化的語料庫、基於open_lm框架的高效預訓練配方,以及超過50種評估方法。DCLM 支持研究人員在不同的計算規模上實驗不同的數據集構建策略,從411M到7B參數模型。DCLM 通過優化的數據集設計顯著提高了模型性能,並且已經促成了多個高質量數據集的創建,這些數據集在不同規模上表現優異,超越了所有開放數據集。
需求人群 :
DCLM 面向需要構建和訓練大型語言模型的研究人員和開發者,特別是那些尋求通過優化數據集設計來提升模型性能的專業人士。它適用於需要處理大規模數據集並希望在不同計算規模上進行實驗的場景。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 53.5K
使用場景
研究人員使用DCLM創建了DCLM-BASELINE數據集,並用其訓練模型,展現出與封閉源模型和其他開源數據集相比的優越性能。
DCLM 支持在不同規模上訓練模型,例如400M-1x和7B-2x,以適應不同的計算需求。
社區成員通過提交模型到DCLM的排行榜,展示了在不同數據集和規模上訓練的模型性能。
產品特色
提供超過300T未過濾的CommonCrawl語料庫
基於open_lm框架提供有效的預訓練配方
提供超過50種評估方法來評估模型性能
支持從411M到7B參數模型的不同計算規模
允許研究人員實驗不同的數據集構建策略
通過優化數據集設計提高模型性能
使用教程
克隆DCLM倉庫到本地
安裝所需的依賴項
設置AWS存儲和Ray分佈式處理環境
選擇原始數據源並創建引用JSON
定義數據處理步驟並創建pipeline配置文件
設置Ray集群並運行數據處理腳本
將處理後的數據tokenize和shuffle
使用tokenized數據集運行模型訓練腳本
評估訓練好的模型並提交結果到DCLM排行榜
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase