Nemotron CC : 将Common Crawl转化为精细的长期预训练数据集

Nemotron CC

Nemotron-CC

Nemotron CC

AI模型开发与工具 #人工智能 #数据集 #预训练 #自然语言处理普通产品商用

简介 :

Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖，将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集，包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡，对于训练大型语言模型具有重要意义。

需求人群 :

目标受众主要是从事人工智能研究和开发的专业人士，特别是那些专注于自然语言处理和大型语言模型训练的科学家和工程师。Nemotron-CC为他们提供了一个高质量、大规模的数据集，能够帮助他们训练更准确、更强大的模型，推动自然语言处理技术的发展。

总访问量： 21.5K

占比最多地区： US(33.87%)

本站浏览量： 50.0K

使用场景

使用Nemotron-CC数据集训练一个8B参数的模型，在MMLU指标上比DCLM提高了5.6

一个8B参数模型使用该数据集训练15T tokens后，在多个任务上表现优于Llama 3.1 8B模型

研究人员可以利用其不同质量等级的分区，进行针对性的模型训练和研究

产品特色

提供6.3万亿token的数据集，包含原始和合成token

通过多种方法优化数据质量，提高模型训练效果

支持长期预训练，解锁先进的训练能力

数据集包含多个质量等级和种类的分区，满足不同需求

提供jsonl和parquet两种格式的数据，方便不同场景使用

使用教程

1. 访问Nemotron-CC的官方网站，了解数据集的详细信息和下载方式

2. 根据研究需求，选择合适的数据分区和格式进行下载

3. 使用下载的数据集对语言模型进行预训练

4. 在预训练过程中，根据模型表现调整训练参数和策略

5. 利用预训练好的模型进行特定任务的微调和应用

精选AI产品推荐

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase