
バイトダンス Flux
Fluxは、バイトダンスが開発した高性能通信オーバーラップライブラリで、GPU上のテンソルとエキスパート並列化のために設計されています。効率的なカーネルとPyTorchとの互換性により、さまざまな並列化戦略をサポートし、大規模モデルの訓練と推論に適しています。Fluxの主な利点には、高性能、容易な統合、およびさまざまなNVIDIA GPUアーキテクチャのサポートが含まれます。大規模分散型訓練、特にMixture-of-Experts(MoE)モデルにおいて優れたパフォーマンスを発揮し、計算効率を大幅に向上させることができます。
モバイルショッピングとオンライン
43.6K

Deepseek Infraにおけるプロファイリングデータ
DeepSeek Profile Dataは、深層学習フレームワークの性能分析に特化したプロジェクトです。PyTorch Profilerを使用して訓練と推論フレームワークの性能データを収集し、研究者や開発者が計算と通信のオーバーラップ戦略および低レベルの実装の詳細をより深く理解するのに役立ちます。これらのデータは大規模な分散型訓練と推論タスクの最適化に不可欠であり、システムの効率と性能を大幅に向上させることができます。このプロジェクトは、DeepSeekチームによる深層学習インフラストラクチャ分野における重要な貢献であり、効率的な計算戦略の探求を促進することを目的としています。
モデルトレーニングとデプロイ
43.3K

Inspiremusic
InspireMusicは、PyTorchを用いて開発された、音楽、楽曲、オーディオ生成に特化したAIGCツールキットおよびモデルフレームワークです。オーディオのトークン化とデコードプロセス、自己回帰Transformerと条件付きフローマッチングモデルを組み合わせることで、高品質な音楽生成を実現します。テキストプロンプト、音楽スタイル、構造など、さまざまな条件制御に対応し、24kHzおよび48kHzの高品質オーディオを生成でき、長尺オーディオ生成も可能です。さらに、ユーザーがニーズに合わせてモデルを調整できるよう、便利な微調整と推論スクリプトを提供しています。InspireMusicのオープンソース化は、一般ユーザーが音楽制作を通じて研究における音響表現を向上させることを目的としています。
音楽生成
53.3K

Olmo 2 1124 7B DPO
OLMo-2-1124-7B-DPOは、Allen Institute for AIによって開発された大規模言語モデルです。特定のデータセットを用いた教師ありファインチューニングと、DPOトレーニングが施されています。チャット、数学問題解答、テキスト生成など、様々なタスクにおいて高性能な結果を提供することを目指しています。Transformersライブラリを基盤として構築され、PyTorchに対応し、Apache 2.0ライセンスで公開されています。
会話型AI
43.9K

RMBG 2.0
RMBG-2.0は、BRIA AIが開発した背景除去モデルであり、画像の前景と背景を効果的に分離することを目的としています。汎用ストック画像、eコマース、ゲーム、広告コンテンツを含む厳選されたデータセットでトレーニングされており、ビジネスユースケースに適しており、大規模な企業コンテンツ制作を推進できます。その精度、効率性、多機能性は、主要なオープンソースモデルと比較しても遜色ありません。RMBG-2.0は、非商業目的で使用するためのソースコードとして利用可能なモデルです。
背景除去
66.8K

Llama O1
LLaMA-O1は大規模推論モデルフレームワークであり、モンテカルロ木探索(MCTS)、自己強化学習、PPOなどの技術を統合し、AlphaGo Zeroの二重戦略パラダイムと大規模言語モデルを参考にしています。主にオリンピックレベルの数学的推論問題を対象とし、トレーニング、推論、評価のためのオープンなプラットフォームを提供します。これは個人的な実験プロジェクトであり、いかなる第三者組織や機関とも無関係であることを、製品背景情報として明記します。
研究機器
45.3K

Sparsh
Sparshは、MAE、DINO、JEPAなどの自己教師あり学習アルゴリズムによって訓練された、汎用的な触覚表現の一連のモデルです。DIGIT、Gelsight'17、Gelsight Miniといった様々な触覚センサに対して有用な表現を生成でき、TacBenchで提案されている下流タスクにおいて、エンドツーエンドモデルを大幅に上回る性能を示します。また、新しい下流タスクへのデータ効率の良い学習にも対応可能です。Sparshプロジェクトには、PyTorch実装、事前学習済みモデル、そしてSparshと共に公開されるデータセットが含まれています。
研究機器
48.0K

Meta Lingua
Meta Linguaは、研究向けに設計された軽量で効率的な大規模言語モデル(LLM)のトレーニングおよび推論ライブラリです。変更しやすいPyTorchコンポーネントを使用しており、研究者は新しいアーキテクチャ、損失関数、およびデータセットを試すことができます。このライブラリは、エンドツーエンドのトレーニング、推論、および評価を実現し、モデルの速度と安定性をより深く理解するためのツールを提供することを目的としています。Meta Linguaはまだ開発中ですが、このコードベースの使用方法を示す複数のサンプルアプリケーションが既に提供されています。
モデルトレーニングとデプロイメント
44.2K
高品質新製品

Torchao
torchaoは、PyTorchのライブラリであり、カスタムデータ型と最適化に重点を置いています。量子化とスパース化された重み、勾配、オプティマイザ、活性化関数をサポートし、推論とトレーニングに使用されます。torch.compile()とFSDP2と互換性があり、ほとんどのPyTorchモデルの高速化を実現します。torchaoは、量子化認識トレーニング(QAT)やポストトレーニング量子化(PTQ)などの技術を通じて、精度損失を最小限に抑えながら、モデルの推論速度とメモリ効率を向上させることを目指しています。
AI開発助手
54.1K

Fluxmusic
FluxMusicは、PyTorchを用いて実装されたテキストから音楽を生成するモデルです。拡散的修正流変換器を用いて、シンプルながらも効果的なテキストから音楽への生成手法を探求しています。このモデルは、テキストプロンプトに基づいて音楽片段を生成することができ、高い革新性と技術的複雑さを併せ持っています。音楽生成分野における最先端技術の代表であり、音楽創作に新たな可能性をもたらします。
AI音楽生成
55.2K

Zero To GPT
zero_to_GPTは、ゼロベースから深層学習を学び、最終的に独自のGPTモデルのトレーニングを可能にすることを目的としたチュートリアルです。人工知能技術が研究室から出て様々な業界で広く応用されるにつれ、AI技術を理解し活用できる人材への社会的な需要はますます高まっています。本チュートリアルは理論と実践を結びつけ、天気予報や翻訳などの実際の問題解決を通して、勾配降下法や逆伝播法などの深層学習の基礎理論を深く解説します。内容は、基本的なニューラルネットワークのアーキテクチャとトレーニング方法から始め、トランスフォーマー、GPUプログラミング、分散型トレーニングなどの高度なトピックへと段階的に進みます。
AI教程
48.3K

Data Juicer
Data-Juicerは、大規模言語モデル(LLM)に高品質で豊富、かつ扱いやすいデータを提供することを目的とした、ワンストップのマルチモーダルデータ処理システムです。システム化され、再利用可能なデータ処理ライブラリを提供し、データとモデルの協調開発をサポートします。サンドボックスラボを通して迅速な反復処理を実現し、データとモデルに基づいたフィードバックループ、可視化、多角的な自動評価などの機能を提供することで、ユーザーがデータとモデルをより深く理解し、改善する支援をします。Data-Juicerは積極的に更新とメンテナンスが行われており、機能、データレシピ、データセットが定期的に強化?追加されています。
AIデータマイニング
59.1K

Ml Mdm
ml-mdmは、高品質なテキストから画像への拡散モデルを効率的に学習するためのPythonパッケージです。Matryoshka拡散モデル技術を利用することで、1024x1024ピクセルの解像度において単一ピクセル空間モデルの学習が可能になり、強力なゼロショット汎化能力を発揮します。
AI画像生成
51.9K

Aurasr V2
AuraSR-v2は、生成敵対ネットワーク(GAN)に基づく画像超解像度モデルであり、生成された画像の拡大用に設計されています。GigaGAN論文のバリエーションです。このモデルのPyTorch実装は、非公式のlucidrains/gigagan-pytorchリポジトリに基づいています。画像解像度を大幅に向上させながら、画像品質を維持できるため、高解像度の画像出力が求められるアプリケーションに最適です。
AI画像増強
61.0K

Dit MoE
DiT-MoEは、PyTorchで実装された拡散トランスフォーマーモデルであり、160億パラメータまで拡張可能で、高密度ネットワークと競合しながらも高度に最適化された推論能力を示します。大規模データセット処理における深層学習分野の最先端技術であり、重要な研究および応用価値を有します。
AIモデル
46.4K

Comfyui高速スタイル転換
ComfyUI-Fast-Style-Transferは、PyTorchフレームワークをベースに開発された高速なニューラルスタイル転換プラグインです。簡単な操作で画像のスタイル変換を可能にします。fast-neural-style-pytorchプロジェクトをベースに、現在は基本的な推論機能のみ移植されています。ユーザーはスタイルをカスタマイズし、独自のモデルを訓練することで、独特のスタイル転換効果を実現できます。
AI画像生成
50.8K
高品質新製品

Toucantts
ToucanTTSは、ドイツ?シュトゥットガルト大学自然言語処理研究所が開発した、多言語対応で制御可能なテキスト音声変換ツールキットです。シンプルで使いやすく、かつ強力な機能を備えるよう、純粋なPythonとPyTorchを使用して構築されています。最先端の音声合成モデルの学習、訓練、使用をサポートし、高い柔軟性とカスタマイズ性を備えているため、教育や研究分野に最適です。
AIテキスト翻訳音声
71.8K

Audiolcm
AudioLCMは、PyTorchを用いて実装されたテキスト音声変換モデルです。潜在的一貫性モデルを通じて、高品質で効率的な音声生成を実現します。Huadai Liu氏らによって開発され、オープンソースの実装と事前学習済みモデルが提供されています。テキスト記述を現実の音声に近い音声に変換でき、特に音声合成やオーディオ制作の分野で重要な応用価値を持っています。
AIテキスト翻訳音声
80.0K

Llama Recipes
llama-recipesはMeta Llamaモデルの付随リポジトリであり、Meta Llamaモデルのファインチューニングのための拡張可能なライブラリを提供することを目的としています。いくつかのサンプルスクリプトとノートブックを提供することで、ドメイン適応型ファインチューニングやLLMベースのアプリケーション構築など、様々なユースケースにおいてモデルを迅速に使い始めることができます。
AIモデル
49.1K

Kan Gpt
kan-gptは、PyTorchベースのGenerative Pre-trained Transformers (GPTs)の実装であり、Kolmogorov-Arnold Networks (KANs) を用いて言語モデリングを行います。このモデルは、特に長距離依存関係の処理において、テキスト生成タスクで潜在能力を示しています。自然言語処理分野に新たなモデルアーキテクチャを提供し、言語モデルの性能向上に貢献するという点で重要です。
AIモデル
49.1K

Lerobot
LeRobotは、ロボット分野への参入障壁を下げ、誰もが共有データセットと事前学習済みモデルから恩恵を受け、貢献できることを目的としたオープンソースプロジェクトです。模倣学習と強化学習に特に重点を置き、実世界で検証済みの最先端の方法を含んでいます。LeRobotは、事前学習済みモデル、人間が収集したデモデータを含むデータセット、そしてロボットを組み立てなくても開始できるシミュレーション環境を提供します。今後数週間で、最も手頃で能力の高い現実世界のロボットへのサポートを追加する予定です。
AI開発助手
100.7K

Contrastors
contrastorsは、研究者やエンジニアがコントラストモデルを効率的に学習および評価できるコントラスト学習ツールキットです。Flash Attentionを基盤として構築されており、マルチGPUトレーニング、GradCacheによる大規模バッチトレーニング(メモリ制限環境下でも可能)、Hugging Faceによる一般的なモデルの容易なロードをサポートしています。また、マスク言語モデルによる事前学習とマトリョーシカ表現学習にも対応しています。
AIモデル
58.8K

Stable Audio Tools
stable-audio-toolsは、条件付き音声生成のための生成モデルの学習と推論コードを提供するオープンソースのPyTorchライブラリです。オートエンコーダー、潜在拡散モデル、MusicGenなどを含みます。マルチGPU学習に対応しており、高品質の音声生成が可能です。
AI音楽生成
74.8K

ハニービー
ハニービーは、マルチモーダル言語モデルのための局所性強化予測器です。自然言語推論や視覚的質問応答など、様々な下流タスクにおけるマルチモーダル言語モデルの性能向上を実現します。ハニービーは局所性感知メカニズムを導入することで、入力サンプル間の依存関係をより適切にモデル化し、マルチモーダル言語モデルの推論能力と質問応答能力を強化します。
AIモデル
55.2K

SIFU
SIFUは、側視画像を用いて高品質な3D衣服仮想人物モデルを再構築する手法です。その核心的な革新点は、側視画像に基づいた新しい陰関数アプローチを提案することであり、これにより特徴抽出の強化と幾何精度の向上を実現します。さらに、SIFUは3D整合性の高いテクスチャ最適化プロセスを導入し、テクスチャ品質の大幅な向上を図り、テキストから画像への拡散モデルを用いたテクスチャ編集を可能にしています。SIFUは複雑なポーズやゆったりとした衣服の処理に優れており、実用的ソリューションとして理想的です。
AI画像生成
67.6K

MLX
MLXは、Appleチップ上での高効率かつ柔軟な機械学習向けに設計された、NumPyに似た配列フレームワークです。Apple機械学習研究チームによって提供されています。Python APIはNumPyと非常に似ていますが、いくつかの例外があります。MLXは、Python APIに厳密に従った完全なC++ APIも備えています。MLXとNumPyの主な違いは、合成可能な関数変換、遅延計算、およびマルチデバイスサポートです。MLXのデザインは、PyTorch、Jax、ArrayFireなどのフレームワークからインスピレーションを得ています。これらのフレームワークとは異なり、MLXは統一メモリモデルを採用しています。MLXの配列は共有メモリに配置され、データのコピーを行うことなく、サポートされているあらゆるデバイスタイプ(CPU、GPUなど)で操作を実行できます。
AI開発助手
72.9K

YOLO NAS Pose
YOLO-NAS Poseは、PyTorchベースのコンピュータビジョンモデルのトレーニングを目的とした、無料でオープンソースなライブラリです。トレーニングスクリプトと、モデル結果を迅速かつ簡単に再現するためのサンプルを提供しています。SOTAモデルを内蔵しており、本番環境で使用可能な事前学習済みモデルを容易にロードして微調整できます。また、最適な精度を実現するためのベストプラクティスと検証済みのハイパーパラメータも提供しています。これにより、トレーニング期間の短縮と不確実性の排除に貢献します。分類、検出、セグメンテーションなど、様々なタスクに対応したモデルを提供しており、コードベースへの容易な統合を可能にします。
モデルトレーニングとデプロイメント
94.4K
海外精選

Lightning AI
Lightning AIは、PyTorchベースのプラットフォームです。ローカルマシンとクラウド環境間でのAIモデルのトレーニングとデプロイをシームレスに行うことができます。大規模言語モデル、Transformers、Stable Diffusionなど、様々な人気のAIモデルの構築をサポートしています。主な機能としては、分散型マルチGPUトレーニングのサポート、MLOps機能の組み込み、クラウド上のサーバーレスデプロイなどが挙げられます。AI開発チーム、AI製品の迅速な構築を目指す企業、GPUリソースを持つ機関などに最適です。
開発とツール
82.0K

Runpod
RunPodは、トレーニングと推論のためのスケーラブルなクラウドGPUインフラストラクチャです。1時間あたり0.2ドルからクラウドGPUをレンタルでき、TensorFlow、PyTorch、その他のAIフレームワークをサポートしています。信頼性の高いクラウドサービス、無料帯域幅、さまざまなGPUオプション、サーバーエンドポイント、AIエンドポイントを提供しており、さまざまなシナリオに対応できます。
開発とツール
63.2K
おすすめAI製品
海外精選

Jules AI
Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。
開発プログラミング
39.2K

Nocode
NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。
開発プラットフォーム
38.9K

Listenhub
ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。
AI
38.1K
中国語精選

腾讯混元画像 2.0
腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。
画像生成
38.1K

Openmemory MCP
OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル(LLM)に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。
オープンソース
38.9K

Fastvlm
FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。
画像処理
38.1K
海外精選

ピカ
ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。
映像制作
17.6M
中国語精選

Liblibai
LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。
AIモデル
6.9M