NVIDIA

# NVIDIA

高品質新製品

NVIDIA Project DIGITS

NVIDIA Project DIGITS

NVIDIA Project DIGITSは、NVIDIA GB10 Grace Blackwellスーパーチップをベースとしたデスクトップ型スーパーコンピューターで、AI開発者に強力なAI性能を提供することを目的としています。消費電力が効率的でコンパクトな設計ながら、毎秒一千万億回のAI演算性能を実現します。NVIDIA AIソフトウェアスタックがプリインストールされており、128GBのメモリを搭載しているため、開発者は最大2000億パラメーターの大規模AIモデルのローカルでのプロトタイピング、ファインチューニング、推論を行い、データセンターやクラウドにシームレスに展開できます。Project DIGITSの登場は、AI開発とイノベーションを促進するNVIDIAの重要なマイルストーンであり、開発者にAIモデルの開発と展開を加速するための強力なツールを提供します。

開発プラットフォーム

Sana_600M_512px

Sana 600M 512px

SanaはNVIDIAが開発したテキストツーイメージ生成フレームワークで、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。高速性と強力なテキストと画像の整合性により、ノートパソコンのGPUでも動作し、画像生成技術の大きな進歩を示しています。このモデルは線形拡散変換器をベースとし、事前学習済みのテキストエンコーダと空間圧縮潜在特徴エンコーダを使用して、テキストプロンプトに基づいて画像の生成と変更を行います。SanaのオープンソースコードはGitHubで公開されており、芸術創作、教育ツール、モデル研究など、幅広い研究と応用が期待されます。

Sana_600M_1024px

Sana 600M 1024px

SanaはNVIDIAが開発したテキスト画像生成フレームワークであり、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。高速性と強力なテキスト画像アライメント機能を備えており、ノートパソコンのGPUでも展開可能です。線形拡散変換器(text-to-image generative model)に基づくモデルで、1648Mパラメータを持ち、1024pxをベースとしたマルチスケールな高解像度画像生成に特化しています。主な利点としては、高解像度画像生成、高速な合成速度、そして強力なテキスト画像アライメント機能が挙げられます。Sanaモデルはオープンソースコードに基づいて開発されており、GitHubでソースコードを入手でき、CC BY-NC-SA 4.0 Licenseに従います。

Sana_1600M_1024px_多言語対応

Sana 1600M 1024px 多言語対応

SanaはNVIDIAが開発したテキストから画像を生成するフレームワークで、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。このモデルは驚異的な速度で高解像度かつ高品質な画像を合成し、強力なテキストと画像の整合性を維持しながら、ノートパソコンのGPUにも展開可能です。Sanaモデルは線形拡散トランスフォーマーに基づいており、事前学習済みのテキストエンコーダーと空間圧縮された潜在特徴エンコーダーを使用し、絵文字、中国語、英語、およびそれらを組み合わせたプロンプトにも対応しています。

Sana_1600M_512px_MultiLing

Sana 1600M 512px MultiLing

SanaはNVIDIAが開発したテキストから画像を生成するフレームワークで、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。Sanaは、高速で高解像度かつ高品質の画像合成が可能であり、強力なテキストと画像の整合性も備えています。ノートパソコンのGPUでも動作します。このモデルは線形拡散変換器をベースとし、固定された事前学習済みテキストエンコーダと空間圧縮潜在特徴エンコーダを使用しており、英語、中国語、絵文字を組み合わせたプロンプトにも対応しています。Sanaの主な利点としては、高い効率性、高解像度画像生成能力、そして多言語対応が挙げられます。

Sana_1600M_1024px

Sana 1600M 1024px

SanaはNVIDIAが開発したテキストツーイメージ生成フレームワークであり、最大4096×4096ピクセルの高解像度で、テキストと画像の一貫性が高い画像を高速に生成できます。ノートパソコンのGPUでも展開可能です。Sanaモデルは線形拡散トランスフォーマーに基づいており、事前学習済みのテキストエンコーダーと空間圧縮された潜在特徴エンコーダーを使用しています。この技術の重要性は、高品質な画像を迅速に生成できる点にあり、芸術創作、デザイン、その他の創造的な分野に革命的な影響を与えます。SanaモデルはCC BY-NC-SA 4.0ライセンスに従い、ソースコードはGitHubで公開されています。

Sana_1600M_512px

Sana 1600M 512px

SanaはNVIDIAが開発したテキストから画像を生成するフレームワークで、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。高速性、強力なテキストと画像の整合性、そしてノートパソコンのGPUでも動作するという特徴があります。線形拡散変換器をベースとし、事前学習済みのテキストエンコーダと空間圧縮された潜在的特徴エンコーダを使用しており、テキストから画像を生成する技術の最新進歩を代表しています。主な利点として、高解像度画像生成、高速合成、ノートパソコンのGPUでの展開可能性、そしてオープンソースコードが挙げられ、研究と実用アプリケーションの両方で大きな価値を持っています。

Sana-1.6B

Sana-1.6Bは、線形拡散変換器技術に基づく、高効率で高解像度の画像合成モデルです。NVIDIA研究所によって開発され、DC-AE技術を用いており、32倍の潜在空間を持ち、複数GPU上で動作し、強力な画像生成能力を提供します。Sana-1.6Bは、その効率的な画像合成能力と高品質な出力結果で知られており、画像合成分野における重要な技術です。

Star-AttentionはNVIDIAが提案した新しいブロックスパース注意力機構であり、Transformerベースの大型言語モデル（LLM）の長系列における推論効率を向上させることを目的としています。この技術は二段階の操作によって推論速度を大幅に向上させながら、95～100％の精度を維持します。ほとんどのTransformerベースのLLMと互換性があり、追加のトレーニングや微調整なしで直接使用でき、Flash AttentionやKVキャッシュ圧縮技術などの他の最適化手法と組み合わせて使用することで、さらに性能を向上させることができます。

モデルトレーニングとデプロイメント

Fugatto

Fugatto（正式名称：Foundational Generative Audio Transformer Opus 1）は、NVIDIAが発表した生成AI音声モデルです。テキストと音声を入力することで、あらゆる種類の音楽、サウンド、音声の組み合わせを生成または変換できます。テキストプロンプトから音楽片段を作成するだけでなく、既存の楽曲に楽器を追加または削除したり、音声のアクセントや感情を変更したり、これまで存在しなかったようなサウンドを生み出すことも可能です。Fugattoの登場は、音声合成と変換の分野における大きな進歩を示しており、音声の理解と生成だけでなく、多様な音声生成と変換タスクをこなす能力を持ち、トレーニングによって生まれた新たな特性を示しています。

Llama-3.1-Nemotron-70B-Instruct

Llama 3.1 Nemotron 70B Instruct

Llama-3.1-Nemotron-70B-Instructは、NVIDIAがカスタマイズした大規模言語モデル（LLM）で、大規模言語モデルが生成する回答の有用性を向上させることに重点を置いています。このモデルは、Arena Hard、AlpacaEval 2 LC、GPT-4-Turbo MT-Benchなどの複数の自動アライメントベンチマークで優れた性能を示しています。Llama-3.1-70B-Instructモデルを基に、RLHF（特にREINFORCEアルゴリズム）、Llama-3.1-Nemotron-70B-Reward、HelpSteer2-Preferenceプロンプトを使用してトレーニングされています。このモデルは、NVIDIAが汎用的な指示に従う際の有用性を向上させる技術を示すだけでなく、Hugging Face Transformersコードライブラリと互換性のあるモデル変換形式を提供し、NVIDIAのbuildプラットフォームで無料のホスト型推論を利用できます。

Llama-3.1-Nemotron-51B

Llama 3.1 Nemotron 51B

Llama-3.1-Nemotron-51Bは、MetaのLlama-3.1-70BをベースにNVIDIAが開発した新型言語モデルです。ニューラルアーキテクチャ探索（NAS）技術による最適化により、高い精度と効率性を両立しています。単一のNVIDIA H100 GPU上で動作し、メモリ使用量、メモリ帯域幅、計算量の削減に成功しながら、優れた精度を維持しています。これは、AI言語モデルにおける精度と効率性の新たなバランスを示すものであり、開発者や企業にコスト効率の高い高性能AIソリューションを提供します。

高品質新製品

NVIDIA App

NVIDIA Appは、PCゲーマーとクリエイター向けに設計されたアプリケーションです。最新のNVIDIAドライバーとテクノロジーへの迅速なアップデートを支援します。統合されたGPUコントロールセンターにより、ゲームやアプリケーションの設定を最適化し、ゲーム内オーバーレイの強力な録画ツールで素晴らしい瞬間を捉え、最新のNVIDIAツールとソフトウェアを簡単に発見できます。

AIゲームアシスタント

Llama3-70B-SteerLM-RM

Llama3 70B SteerLM RM

Llama3-70B-SteerLM-RMは、70億パラメーターの言語モデルであり、属性予測モデルとして機能する多面的な報酬モデルです。従来の報酬モデルのように単一スコアではなく、複数の側面からモデル応答を評価します。このモデルはHelpSteer2データセットを使用してトレーニングされ、効率的で拡張性のあるモデルアラインメントのためのツールキットであるNVIDIA NeMo-Alignerによってトレーニングされました。

高品質新製品

Nemotron-4-340B-Base

Nemotron 4 340B Base

Nemotron-4-340B-Baseは、NVIDIAが開発した3400億パラメーターの大規模言語モデルです。4096トークンのコンテキスト長に対応し、合成データの生成、研究者や開発者による独自のLLM構築を支援します。9兆トークンで事前学習されており、50種類以上の自然言語と40種類以上のプログラミング言語を網羅しています。NVIDIAオープンモデルライセンスにより、商用利用、派生モデルの作成と配布が許可され、モデルまたは派生モデルによって生成された出力に対する所有権は主張しません。

高品質新製品

NVIDIA RTX Remix

NVIDIA RTX Remix

NVIDIA RTX Remixは、NVIDIAが提供するオープンソースのモジュール作成ツールキットです。クリエイターやゲーム開発者がNVIDIA RTXテクノロジーの強力な機能を活用して、ゲームや創作体験を向上させることができます。このテクノロジーはリアルタイムレイトレーシングとAI駆動のグラフィック強化を利用することで、ゲームにリアルな視覚効果をもたらします。RTX Remixはクリエイターのための強力なプラットフォームを提供するだけでなく、オープンなAPIとコネクタを通じて他のアプリケーションやサービスとの統合を促進し、ゲームと創作分野のイノベーションを推進します。

NVIDIA ACE

NVIDIA ACEは、導入が容易で高性能な、高度な生成AIモデルとマイクロサービスを提供します。これらのAIモデルは、商業的に安全で責任あるライセンスの下にあるデータでトレーニングされており、微調整と保護策により、ユーザー入力に関わらず、正確で適切かつ的を射た結果が得られます。ACEは柔軟な展開オプションを提供し、クラウドまたはNVIDIA RTX AI PC上で展開および実行できます。さらに、ACEはデジタルヒューマンワークフローを提供し、開発者はACE NIMを自社製品、ツール、サービス、またはゲームに統合して、NPCやカスタマーサービスアシスタントなどの特定分野のAIワークフローに使用できます。NVIDIAはInworld AIと協力して、Unreal Engine 5で最先端のビジュアルエフェクトを提供するエンドツーエンドのNPCプラットフォームにNVIDIA ACEを統合した例を示しています。

Llama3-ChatQA-1.5-8B

Llama3 ChatQA 1.5 8B

Llama3-ChatQA-1.5-8Bは、NVIDIAが開発した高度な対話型質疑応答と検索拡張生成(RAG)モデルです。このモデルはChatQA (1.0)を改良したもので、対話型質疑応答データを追加することで、表計算や算術計算能力を強化しています。Llama3-ChatQA-1.5-8BとLlama3-ChatQA-1.5-70Bの2つのバリアントがあり、どちらもMegatron-LMを使用してトレーニングされ、Hugging Face形式に変換されています。このモデルはChatRAG Benchのベンチマークテストで優れた性能を示しており、複雑な対話理解と生成が必要なシナリオに適しています。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase