Nemotron CC : 將Common Crawl轉化為精細的長期預訓練數據集

Nemotron CC

Nemotron-CC

Nemotron CC

AI模型開發與工具 #人工智能 #數據集 #預訓練 #自然語言處理普通產品商用

簡介 :

Nemotron-CC是一個基於Common Crawl的6.3萬億token的數據集。它通過分類器集成、合成數據改寫和減少啟發式過濾器的依賴，將英文Common Crawl轉化為一個6.3萬億token的長期預訓練數據集，包含4.4萬億全球去重的原始token和1.9萬億合成生成的token。該數據集在準確性和數據量之間取得了更好的平衡，對於訓練大型語言模型具有重要意義。

需求人群 :

目標受眾主要是從事人工智能研究和開發的專業人士，特別是那些專注於自然語言處理和大型語言模型訓練的科學家和工程師。Nemotron-CC為他們提供了一個高質量、大規模的數據集，能夠幫助他們訓練更準確、更強大的模型，推動自然語言處理技術的發展。

總訪問量： 21.5K

佔比最多地區： US(33.87%)

本站瀏覽量： 49.1K

使用場景

使用Nemotron-CC數據集訓練一個8B參數的模型，在MMLU指標上比DCLM提高了5.6

一個8B參數模型使用該數據集訓練15T tokens後，在多個任務上表現優於Llama 3.1 8B模型

研究人員可以利用其不同質量等級的分區，進行針對性的模型訓練和研究

產品特色

提供6.3萬億token的數據集，包含原始和合成token

通過多種方法優化數據質量，提高模型訓練效果

支持長期預訓練，解鎖先進的訓練能力

數據集包含多個質量等級和種類的分區，滿足不同需求

提供jsonl和parquet兩種格式的數據，方便不同場景使用

使用教程

1. 訪問Nemotron-CC的官方網站，瞭解數據集的詳細信息和下載方式

2. 根據研究需求，選擇合適的數據分區和格式進行下載

3. 使用下載的數據集對語言模型進行預訓練

4. 在預訓練過程中，根據模型表現調整訓練參數和策略

5. 利用預訓練好的模型進行特定任務的微調和應用

精選AI產品推薦

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase