

NVIDIA Blackwellプラットフォーム
紹介 :
NVIDIA Blackwellプラットフォームは、6つの革新的な技術を活用することで、加速コンピューティングを推進します。コストと消費電力の削減を実現しながら、リアルタイムAI生成や、数兆パラメーターにも及ぶ大規模言語モデルの処理を可能にします。
ターゲットユーザー :
高性能コンピューティングとAIモデル処理を必要とする組織や業界、例えばクラウドサービスプロバイダー、サーバーメーカー、そして主要なAI企業などに最適です。
使用シナリオ
クラウドサービスプロバイダーによるBlackwellを用いたAIサービスの高速化
企業によるBlackwellを用いたエンジニアリングシミュレーション効率の向上
AI研究者によるBlackwellを用いた大規模言語モデルの処理
製品特徴
リアルタイムAI生成
大規模言語モデル処理
データ処理とエンジニアリングシミュレーションの高速化
電子設計自動化
コンピュータ支援創薬
量子コンピューティング
トラフィックソース
直接訪問 | 30.60% | 外部リンク | 52.82% | メール | 0.07% |
オーガニック検索 | 13.58% | ソーシャルメディア | 2.55% | ディスプレイ広告 | 0.37% |
最新のトラフィック状況
月間訪問数 | 369.59k |
平均訪問時間 | 42.16 |
訪問あたりのページ数 | 1.58 |
直帰率 | 74.41% |
総トラフィック傾向チャート
地理的トラフィック分布
月間訪問数 | 369.59k |
United States | 34.93% |
United States | 34.93% |
India | 5.09% |
India | 5.09% |
Taiwan | 4.98% |
Taiwan | 4.98% |
United Kingdom | 4.08% |
United Kingdom | 4.08% |
Canada | 3.91% |
Canada | 3.91% |
グローバル地理的トラフィック分布マップ
類似のオープンソース製品

Aimo Progress Prize
このGitHubリポジトリには、AI数学オリンピック(AIMO)進歩賞で受賞したソリューションを再現するための、トレーニングと推論コードが含まれています。私たちのソリューションは、主に4つの部分で構成されています。ツール統合推論(TIR)を使用して数学の問題を解くためにDeepSeekMath-Base 7Bをファインチューニングするためのレシピ、約100万個の数学の問題と解答からなる2つの高品質なトレーニングデータセット、コード実行フィードバック付きの解答候補を生成するための自己無撞着デコーディングアルゴリズム(SC-TIR)、そしてモデル選択をガイドし、公開ランキングへの過剰適合を回避するための、AMC、AIME、MATHから厳選された4つの検証セットです。
AIモデル推論訓練
高品質新製品

Minference
MInferenceは、長文脈大型言語モデル(LLM)の推論を高速化するフレームワークです。LLMのAttention機構における動的スパース性を利用し、静的パターン認識とオンラインスパースインデックス近似計算により、プリフィリング速度を大幅に向上させます。単一のA100 GPU上で1Mコンテキストの処理速度を10倍に高速化し、同時に推論精度を維持します。
AIモデル推論訓練

Hipporag
HippoRAGは、人間の長期記憶から着想を得た、新しいRetrieval Augmented Generation(RAG)フレームワークです。大規模言語モデル(LLM)が外部ドキュメント全体の知識を継続的に統合することを可能にします。実験により、HippoRAGは、高価で遅延の大きい反復的なLLMパイプラインを必要とする従来のRAGシステムと同等の能力を、より低い計算コストで提供できることが示されています。
AIモデル推論訓練

インテルNPUアクセラレーションライブラリ
インテルNPUアクセラレーションライブラリは、インテルが神経処理ユニット(NPU)向けに開発したアクセラレーションライブラリであり、深層学習および機械学習アプリケーションのパフォーマンス向上を目指しています。このライブラリは、インテルハードウェアに最適化されたアルゴリズムとツールを提供し、複数の深層学習フレームワークをサポートすることで、モデルの推論速度と効率を大幅に向上させます。
AIモデル推論訓練

Opendit
OpenDiTはオープンソースプロジェクトであり、Colossal-AIベースのDiffusion Transformer(DiT)の高性能実装を提供します。テキストからビデオへの生成やテキストから画像への生成といったDiTアプリケーションのトレーニングと推論効率を向上させるために設計されています。OpenDiTは以下の技術により性能を向上させます。GPU上で最大80%の高速化と50%のメモリ削減を実現し、FlashAttention、Fused AdaLN、Fused layernormといったコア最適化を含みます。ZeRO、Gemini、DDPの混合並列手法や、EMAモデルのシャーディングによるメモリコストの更なる削減、FastSeq(活性化サイズが大きくパラメータサイズが小さいDiTなどのワークロードに特に適した、新規のシーケンシャル並列手法)を採用しています。単ノードシーケンシャル並列処理により通信コストを最大48%削減し、単一GPUのメモリ制限を突破することで、トレーニングと推論の全体時間を短縮します。わずかなコード変更で大幅な性能向上を実現し、ユーザーは分散トレーニングの実装詳細を理解する必要がありません。テキストから画像への生成とテキストからビデオへの生成の完全なワークフローを提供し、研究者やエンジニアは容易に当社のワークフローを実際のアプリケーションに適用?調整でき、並列処理部分を変更する必要はありません。ImageNetを用いたテキストから画像へのトレーニングを行い、チェックポイントを公開しています。
AIモデル推論訓練

T3
大規模言語モデルの学習と推論では、分散技術への依存度が高まっています。これらの技術はデバイス間の通信を必要とし、デバイス数が増加するにつれて、スケーラビリティ効率が低下する可能性があります。一部の分散技術では重複させることで、独立した計算の通信を隠蔽できますが、テンソル並列(TP)のような技術は、通信とモデル実行を本質的に直列化します。この直列化された通信を隠蔽する1つの方法は、きめ細かい方法でそれをプロデューサー操作(通信データの生成)とインターリーブすることです。しかし、ソフトウェアでこのようなきめ細かい通信と計算のインターリーブを実装するのは困難な場合があります。さらに、あらゆる並列実行と同様に、計算と通信間で計算とメモリ資源を共有する必要があり、リソース競合を引き起こして重複効率を低下させます。これらの課題を克服するために、ハードウェアとソフトウェアの協調設計を用いて、直列通信を透過的に重複させながら、計算とのリソース競合を最小限に抑えるT3を提案します。T3は、プロデューサーの出力アドレス空間を簡単に設定することで、プロデューサー操作とそれに続く通信を透過的に融合し、わずかなソフトウェア変更で済みます。ハードウェアレベルでは、T3は軽量な追跡とトリガーのメカニズムを追加し、プロデューサーの計算と通信を調整します。さらに、通信に関連する計算にエンハンスト?コンピューティング?メモリを活用します。その結果、T3はリソース競合を削減し、直列通信と計算を効率的に重複させます。T-NLGなど重要なTransformerモデルにおいて、T3は通信集約的なサブ層の速度を幾何平均で30%(最大47%)、データ移動量を幾何平均で22%(最大36%)削減します。さらに、モデルの拡大に伴い、T3のメリットは持続します。500億パラメーターモデルのサブ層では、幾何平均で29%の改善が見られました(PALMとMT-NLG)。
AIモデル推論訓練

ゼロバブルパイプライン並列処理
ゼロバブルパイプライン並列処理は大規模分散型トレーニングにおける重要な構成要素の一つであり、その効率はパイプラインバブルの影響を受けます。本研究では、同期トレーニングのセマンティクス下でゼロパイプラインバブルを実現するスケジューリング戦略を導入しました。この改善の核心となるアイデアは、逆伝播計算を2つの部分、すなわち入力の勾配計算とパラメータの勾配計算に分割することです。このアイデアに基づき、従来手法を明らかに凌駕する新規のパイプラインスケジューリングを手動で設計しました。さらに、特定のモデル構成とメモリ制限に基づいて最適なスケジューリングを自動的に見つけるアルゴリズムを開発しました。また、真のゼロバブルを実現するために、オプティマイザーステップ中に同期をバイパスする新規技術を導入しました。実験評価の結果、本手法は、同様のメモリ制限下で、1F1Bスケジューリングと比較してスループットを最大23%向上しました。メモリ制限が緩和されると、この数値はさらに31%に向上します。本研究の結果は、パイプライン並列の可能性を最大限に引き出す上で重要な一歩を踏み出したものと考えています。
AIモデル推論訓練

Reft
ReFTは、大規模言語モデル(LLM)の推論能力を強化するためのシンプルかつ効果的な手法です。まず、教師ありファインチューニング(SFT)によってモデルを事前学習させ、その後、オンライン強化学習、具体的には本稿で用いられているPPOアルゴリズムを用いて、モデルをさらに微調整します。ReFTは、与えられた問題に対して多数の推論経路を自動的にサンプリングし、正解から自然に報酬を導き出すことで、SFTを大幅に上回る性能を実現します。ReFTの性能は、推論時の戦略(多数決やランキング再評価など)を組み合わせることで、さらに向上させる可能性があります。注目すべき点は、ReFTは追加の、あるいは拡張された訓練データに依存することなく、SFTと同じ訓練問題を用いて改善を達成する点です。これは、ReFTがより強力な汎化能力を持つことを示唆しています。
AIモデル推論訓練

効率的なLLM
これは、Intel GPU上で高効率なLLM推論を実現するソリューションです。LLMデコーダー層の簡素化、セグメント化KVキャッシュ戦略の採用、カスタム設計のScaled-Dot-Product-Attentionカーネルによって、標準的なHugging Face実装と比較して、Intel GPU上で最大7倍のトークン遅延削減と27倍のスループット向上を実現します。詳細な機能、メリット、価格、位置付けなどの情報は、公式ウェブサイトをご覧ください。
AIモデル推論訓練
代替品

インテル? Core? Ultra デスクトップ?プロセッサー
インテル? Core?至尊200シリーズ?デスクトップ?プロセッサーは、デスクトッププラットフォーム向け初のAI対応PCプロセッサーです。発熱量の少ない省電力設計ながら、ゲーマーに最高のゲーム体験と業界をリードする計算性能を提供します。最大8個の次世代パフォーマンス?コア(P-コア)と最大16個の次世代効率コア(E-コア)を搭載し、マルチスレッドワークロードのパフォーマンスは前世代と比較して最大14%向上しています。発熱量の少ない省電力設計で、ヌースプロセッシングユニット(NPU)を備えた初のデスクトップ?プロセッサーであり、統合Xe GPUによる最先端のメディア機能もサポートしています。
AIモデル推論訓練
海外精選

NVIDIA AI Foundry
NVIDIA AI Foundryは、企業がAIモデルの構築、最適化、展開を支援するプラットフォームです。統合された環境を提供することで、企業はNVIDIAの先進技術を活用し、AIイノベーションを加速させることができます。NVIDIA AI Foundryの主な利点には、強力な計算能力、幅広いAIモデルライブラリ、エンタープライズレベルのアプリケーションサポートが含まれます。このプラットフォームにより、企業は特定のニーズに合わせたAIソリューションを迅速に開発し、効率性と競争力を向上させることができます。
AI開発プラットフォーム

扣子プロフェッショナル版
扣子プロフェッショナル版は、企業向けのAIアプリケーション開発プラットフォームです。プログラミングスキルがなくても、簡単に個性的なAIアプリケーションを構築できます。1万以上のプラグインを備えた豊富なエコシステムにより、強力な大規模言語モデルアプリケーションを構築でき、データの私有化とチームコラボレーションにも対応しています。あらゆる企業のニーズに対応できる柔軟な価格設定で、企業のデジタル変革を推進する重要なツールです。
AI開発プラットフォーム

Aimo Progress Prize
このGitHubリポジトリには、AI数学オリンピック(AIMO)進歩賞で受賞したソリューションを再現するための、トレーニングと推論コードが含まれています。私たちのソリューションは、主に4つの部分で構成されています。ツール統合推論(TIR)を使用して数学の問題を解くためにDeepSeekMath-Base 7Bをファインチューニングするためのレシピ、約100万個の数学の問題と解答からなる2つの高品質なトレーニングデータセット、コード実行フィードバック付きの解答候補を生成するための自己無撞着デコーディングアルゴリズム(SC-TIR)、そしてモデル選択をガイドし、公開ランキングへの過剰適合を回避するための、AMC、AIME、MATHから厳選された4つの検証セットです。
AIモデル推論訓練
高品質新製品

Minference
MInferenceは、長文脈大型言語モデル(LLM)の推論を高速化するフレームワークです。LLMのAttention機構における動的スパース性を利用し、静的パターン認識とオンラインスパースインデックス近似計算により、プリフィリング速度を大幅に向上させます。単一のA100 GPU上で1Mコンテキストの処理速度を10倍に高速化し、同時に推論精度を維持します。
AIモデル推論訓練

Hipporag
HippoRAGは、人間の長期記憶から着想を得た、新しいRetrieval Augmented Generation(RAG)フレームワークです。大規模言語モデル(LLM)が外部ドキュメント全体の知識を継続的に統合することを可能にします。実験により、HippoRAGは、高価で遅延の大きい反復的なLLMパイプラインを必要とする従来のRAGシステムと同等の能力を、より低い計算コストで提供できることが示されています。
AIモデル推論訓練

NVIDIA Blackwellプラットフォーム
NVIDIA Blackwellプラットフォームは、6つの革新的な技術を活用することで、加速コンピューティングを推進します。コストと消費電力の削減を実現しながら、リアルタイムAI生成や、数兆パラメーターにも及ぶ大規模言語モデルの処理を可能にします。
AIモデル推論訓練

インテルNPUアクセラレーションライブラリ
インテルNPUアクセラレーションライブラリは、インテルが神経処理ユニット(NPU)向けに開発したアクセラレーションライブラリであり、深層学習および機械学習アプリケーションのパフォーマンス向上を目指しています。このライブラリは、インテルハードウェアに最適化されたアルゴリズムとツールを提供し、複数の深層学習フレームワークをサポートすることで、モデルの推論速度と効率を大幅に向上させます。
AIモデル推論訓練

Opendit
OpenDiTはオープンソースプロジェクトであり、Colossal-AIベースのDiffusion Transformer(DiT)の高性能実装を提供します。テキストからビデオへの生成やテキストから画像への生成といったDiTアプリケーションのトレーニングと推論効率を向上させるために設計されています。OpenDiTは以下の技術により性能を向上させます。GPU上で最大80%の高速化と50%のメモリ削減を実現し、FlashAttention、Fused AdaLN、Fused layernormといったコア最適化を含みます。ZeRO、Gemini、DDPの混合並列手法や、EMAモデルのシャーディングによるメモリコストの更なる削減、FastSeq(活性化サイズが大きくパラメータサイズが小さいDiTなどのワークロードに特に適した、新規のシーケンシャル並列手法)を採用しています。単ノードシーケンシャル並列処理により通信コストを最大48%削減し、単一GPUのメモリ制限を突破することで、トレーニングと推論の全体時間を短縮します。わずかなコード変更で大幅な性能向上を実現し、ユーザーは分散トレーニングの実装詳細を理解する必要がありません。テキストから画像への生成とテキストからビデオへの生成の完全なワークフローを提供し、研究者やエンジニアは容易に当社のワークフローを実際のアプリケーションに適用?調整でき、並列処理部分を変更する必要はありません。ImageNetを用いたテキストから画像へのトレーニングを行い、チェックポイントを公開しています。
AIモデル推論訓練
おすすめAI製品

Google AI Studio
Google AI Studioは、Google Cloud上でAIアプリケーションを構築およびデプロイするための、Vertex AIを基盤としたプラットフォームです。ノーコードインターフェースを提供することで、開発者、データサイエンティスト、ビジネスアナリストがAIモデルを迅速に構築、デプロイ、管理することを可能にします。
AI開発プラットフォーム
971.2K

Vertex AI
Vertex AIは、機械学習モデルの構築とデプロイに必要な統合プラットフォームとツールを提供します。強力な機能を備え、カスタムモデルのトレーニングとデプロイを高速化し、事前構築済みのAI APIとアプリケーションを提供します。主な機能には、統合ワークスペース、モデルのデプロイと管理、MLOpsサポートなどがあります。データサイエンティストとMLエンジニアの生産性を大幅に向上させることができます。
AI開発プラットフォーム
284.3K