

Genmoai
紹介 :
genmoai/modelsは、動画生成技術の最新進歩を示すオープンソースの動画生成モデルです。Mochi 1と名付けられたこのモデルは、10億パラメーターのAsymmetric Diffusion Transformer (AsymmDiT)アーキテクチャに基づく拡散モデルであり、ゼロからトレーニングされました。公開されている中で最大規模の動画生成モデルであり、高忠実度の動きと強力なプロンプトへの追従性を備え、クローズドシステムとオープンシステムの動画生成におけるギャップを大幅に縮小しました。このモデルはApache 2.0ライセンスの下で公開されており、Genmoのplaygroundで無料で試用できます。
ターゲットユーザー :
動画制作者、ゲーム開発者、アニメーター、そして動画生成技術に関心のある研究者や開発者の方々が主な対象ユーザーです。オープンソースであるため、動画生成分野で革新と実験を行いたいユーザーにとって特に適しています。
使用シナリオ
動画制作者は、このモデルを使用して、特定のアクションと背景を持つカスタム動画コンテンツを生成できます。
ゲーム開発者は、このモデルを使用して、ゲーム内でダイナミックな動画背景やストーリーアニメーションを生成できます。
研究者は、このモデルを基に更なる開発を行い、動画生成技術の可能性を探求できます。
製品特徴
Asymmetric Diffusion Transformer (AsymmDiT)アーキテクチャを使用し、10億パラメーターの拡散モデルです。
AsymmVAEモデルにより、動画を最大128倍に圧縮する効率的な圧縮を実現します。
コマンドラインから直接動画を生成するか、Gradioユーザーインターフェースを介して操作できます。
ユーザーのプロンプト処理には、単一のT5-XXL言語モデルのみを使用します。
動作には少なくとも4台のH100 GPUが必要です。コミュニティでは、この要件の緩和に取り組んでいます。
研究プレビュー段階のため、生成される動画の解像度は480pで、激しい動きではわずかな歪みが発生する可能性があります。
写真のようなリアルなスタイルに最適化されており、アニメーションコンテンツの生成には適していません。
使用チュートリアル
1. Gitを使用して、genmoai/modelsリポジトリをローカルにクローンします。
2. 仮想環境をインストールして設定します。
3. 必要な依存関係をインストールします。
4. モデルの重みをローカルディレクトリにダウンロードします。
5. 提供されているコマンドラインツールまたはGradio UIを使用して、動画生成プロセスを開始します。
6. 必要に応じて、プロンプト、シード値などの生成パラメーターを調整します。
7. 生成コマンドを実行すると、入力されたプロンプトに基づいてモデルが動画を生成します。
8. 生成された動画が要件を満たしているかを確認し、必要に応じて微調整します。
おすすめAI製品
中国語精選

Kimi K1.5
Kimi k1.5は、MoonshotAIによって開発されたマルチモーダル言語モデルです。強化学習とロングコンテキスト拡張技術により、複雑な推論タスクにおけるモデルのパフォーマンスが大幅に向上しました。AIMEやMATH-500などの数学的推論タスクにおいて、GPT-4oやClaude Sonnet 3.5を上回るなど、複数のベンチマークテストで業界トップレベルの成果を達成しています。主な利点としては、効率的なトレーニングフレームワーク、強力なマルチモーダル推論能力、ロングコンテキストのサポートなどが挙げられます。Kimi k1.5は、プログラミング支援、数学の問題解決、コード生成など、複雑な推論と論理分析を必要とするアプリケーションシナリオを主に対象としています。
モデルトレーニングとデプロイ
219.1K
海外精選

D ID クリエイティブリアリティ
D-IDアプリはAI技術を活用し、一枚の写真をアップロードするだけで話す動画を作成できます。自分の音声もアップロードでき、アップロードした画像の人物にリップシンクを行います。動画は非常に自然で、無料版(Lite)、月額$29のPro版、月額$195.99のAdvanced版の3つのプランがあります。画像処理と動画生成において優れた性能を発揮します。
動画制作
195.1K