Nemotron-CC
N
Nemotron CC
簡介 :
Nemotron-CC是一個基於Common Crawl的6.3萬億token的數據集。它通過分類器集成、合成數據改寫和減少啟發式過濾器的依賴,將英文Common Crawl轉化為一個6.3萬億token的長期預訓練數據集,包含4.4萬億全球去重的原始token和1.9萬億合成生成的token。該數據集在準確性和數據量之間取得了更好的平衡,對於訓練大型語言模型具有重要意義。
需求人群 :
目標受眾主要是從事人工智能研究和開發的專業人士,特別是那些專注於自然語言處理和大型語言模型訓練的科學家和工程師。Nemotron-CC為他們提供了一個高質量、大規模的數據集,能夠幫助他們訓練更準確、更強大的模型,推動自然語言處理技術的發展。
總訪問量: 21.5K
佔比最多地區: US(33.87%)
本站瀏覽量 : 49.1K
使用場景
使用Nemotron-CC數據集訓練一個8B參數的模型,在MMLU指標上比DCLM提高了5.6
一個8B參數模型使用該數據集訓練15T tokens後,在多個任務上表現優於Llama 3.1 8B模型
研究人員可以利用其不同質量等級的分區,進行針對性的模型訓練和研究
產品特色
提供6.3萬億token的數據集,包含原始和合成token
通過多種方法優化數據質量,提高模型訓練效果
支持長期預訓練,解鎖先進的訓練能力
數據集包含多個質量等級和種類的分區,滿足不同需求
提供jsonl和parquet兩種格式的數據,方便不同場景使用
使用教程
1. 訪問Nemotron-CC的官方網站,瞭解數據集的詳細信息和下載方式
2. 根據研究需求,選擇合適的數據分區和格式進行下載
3. 使用下載的數據集對語言模型進行預訓練
4. 在預訓練過程中,根據模型表現調整訓練參數和策略
5. 利用預訓練好的模型進行特定任務的微調和應用
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase