Nemotron CC : Common Crawlを精緻化した、大規模言語モデルの長期事前学習用データセット

すべてのカテゴリ

Nemotron CC

Nemotron-CC

Nemotron CC

AIモデル開発とツール #人工知能 #データセット #事前学習 #自然言語処理通常製品商用

紹介 :

Nemotron-CCは、Common Crawlを基にした6.3兆トークンのデータセットです。分類器の統合、合成データによる書き換え、そしてヒューリスティックなフィルタリングへの依存軽減を通じて、6.3兆トークンの大規模言語モデルの長期事前学習用データセットへと変換されています。これは、4.4兆トークンのグローバルに重複除去された生のトークンと、1.9兆トークンの合成生成トークンで構成されます。本データセットは、正確性とデータ量のバランスに優れ、大規模言語モデルの訓練に重要な役割を果たします。

ターゲットユーザー :

主な対象ユーザーは、人工知能の研究開発に従事する専門家、特に自然言語処理と大規模言語モデルの訓練に特化した科学者やエンジニアです。Nemotron-CCは、彼らに高品質かつ大規模なデータセットを提供し、より正確で強力なモデルを訓練し、自然言語処理技術の発展に貢献します。

総訪問数： 12.0K

最も高い割合の地域： US(33.87%)

ウェブサイト閲覧数： 48.0K

使用シナリオ

Nemotron-CCデータセットを使用して80億パラメータのモデルを訓練した結果、MMLU指標においてDCLMを5.6ポイント上回った

80億パラメータのモデルを本データセットを用いて15兆トークンで訓練した結果、複数のタスクにおいてLlama 3.1 80億パラメータモデルを上回る性能を示した

研究者は、様々な品質レベルのパーティションを活用して、目的別モデルの訓練と研究を行うことができる

製品特徴

6.3兆トークンのデータセットを提供（生のトークンと合成トークンを含む）

多様な手法によるデータ品質の最適化で、モデルの訓練効果向上を実現

長期事前学習をサポートし、高度な訓練能力の解放

様々な品質レベルと種類のパーティションを用意し、多様なニーズに対応

jsonlとparquetの2種類のデータ形式を提供し、様々なシーンでの利用を可能にする

使用チュートリアル

1. Nemotron-CCの公式ウェブサイトにアクセスし、データセットの詳細とダウンロード方法を確認する

2. 研究ニーズに合わせて、適切なデータパーティションと形式を選択してダウンロードする

3. ダウンロードしたデータセットを使用して言語モデルの事前学習を行う

4. 事前学習中に、モデルの性能に基づいて訓練パラメータと戦略を調整する

5. 事前学習済みのモデルを使用して、特定のタスクのファインチューニングと応用を行う

おすすめAI製品

DeepMind Gemini

Deepmind Gemini

Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase