テキストから動画

# テキストから動画

Wan 2.1 AI

Wan 2.1 AIは、アリババが開発したオープンソースの大規模動画生成AIモデルです。テキストから動画（T2V）と画像から動画（I2V）の生成をサポートし、シンプルな入力を高品質な動画コンテンツに変換できます。このモデルは動画生成分野において重要な意味を持ち、動画制作プロセスを大幅に簡素化し、制作のハードルを下げ、制作効率を向上させ、ユーザーに多様な動画制作の可能性を提供します。主な利点としては、高品質な動画生成効果、複雑な動作の滑らかな表現、リアルな物理シミュレーション、豊富なアートスタイルなどがあります。現在、この製品は完全にオープンソース化されており、ユーザーは基本機能を無料で利用できます。動画制作のニーズがありながら、専門的なスキルや設備がない個人や企業にとって、非常に高い実用価値があります。

["ビデオアップデート, AI モデル]

Wan2GP

Wan2GPは、低スペックGPUユーザーに効率的でメモリ使用量の少ない動画生成ソリューションを提供することを目的とした、Wan2.1を改良したバージョンです。メモリ管理と高速化アルゴリズムの最適化により、一般ユーザーでも消費レベルのGPUで高品質な動画コンテンツを迅速に生成できます。テキストから動画、画像から動画、動画編集など、様々なタスクに対応しており、強力な動画VAEアーキテクチャにより、1080P動画を効率的に処理できます。Wan2GPの登場により、動画生成技術のハードルが下がり、より多くのユーザーが容易に使いこなして実践的な場面で応用できるようになりました。

Wan2.1-T2V-14B

Wan2.1-T2V-14Bは、拡散トランスフォーマーアーキテクチャに基づき、革新的な時空間変分オートエンコーダー（VAE）と大規模データトレーニングを組み合わせた、最先端のテキストから動画への生成モデルです。様々な解像度で高品質な動画コンテンツを生成でき、中国語と英語のテキスト入力をサポートしており、既存のオープンソースモデルや商用モデルを性能と効率の面で凌駕しています。コンテンツ制作、広告制作、動画編集など、効率的な動画生成が必要な場面に適しています。現在、Hugging Faceプラットフォームで無料で提供されており、動画生成技術の発展と応用を促進することを目的としています。

FlashVideo

FlashVideoは、効率的で高解像度の動画生成に特化した深層学習モデルです。段階的な生成戦略により、まず低解像度の動画を生成し、その後、エンハンスメントモデルで高解像度へとアップスケールすることで、ディテールを維持しつつ計算コストを大幅に削減します。この技術は、特に高品質なビジュアルコンテンツが必要な場面において、動画生成分野で重要な意味を持ちます。FlashVideoは、コンテンツ制作、広告制作、動画編集など、様々な場面で使用できます。オープンソースであるため、研究者や開発者は柔軟にカスタマイズと拡張を行うことができます。

ClipVideo AI

ClipVideo AIは、人工知能技術を活用して写真や簡単なテキストプロンプトから魅力的な動画を生成するプロフェッショナルなAI動画生成プラットフォームです。迅速な動画生成ツール、エンタープライズレベルのセキュリティとサポート、そして数多くのチームからの信頼を誇ります。ClipVideo AIは、基本からプロフェッショナルまで、様々なニーズに対応した価格プランを提供しています。

Pollo AI

Pollo AIは革新的なAI動画生成ツールで、驚くほど簡単に動画を作成できます。シンプルなテキストプロンプトや静止画から、特定のスタイルと内容を持つ動画を迅速に生成できます。ユーザーフレンドリーなインターフェース、幅広いカスタマイズオプション、高品質な出力で知られており、初心者から経験豊富なクリエイターまで幅広く利用できます。テキストから動画への生成だけでなく、画像の内容やユーザーのニーズに基づいて動画を生成することも可能です。AIハグ動画ジェネレーターを含む様々なテンプレートも用意されており、心温まるハグ動画を簡単に作成できます。Pollo AIは、高速な動画生成能力、高品質な出力、そして高度な動画編集スキルが不要な使いやすさで、無限の創作の可能性を提供します。

ConsisID

ConsisIDは、周波数領域で人物制御信号を用いることで、入力テキストの説明と一致する高忠実度の動画を生成する、周波数分解に基づく人物同一性維持テキストから動画への生成モデルです。このモデルは、異なるケースに合わせて煩雑な微調整を行う必要がなく、生成される動画における人物の同一性を維持することができます。ConsisIDの提案は、特に調整不要なプロセスと周波数認識による人物同一性維持制御スキームにおいて、動画生成技術の発展を推進します。

Allegro-TI2V

Allegro-TI2Vは、ユーザーが提供したプロンプトと画像から動画コンテンツを生成できるテキスト画像から動画生成モデルです。オープンソースであること、多様なコンテンツ制作能力、高品質の出力、コンパクトで効率的なモデルパラメータ、そして複数の精度とGPUメモリ最適化に対応していることから注目を集めています。これは、動画生成分野における現在の人工知能技術の最先端を示しており、重要な技術的価値と商業的応用可能性を秘めています。Allegro-TI2VモデルはHugging Faceプラットフォームで提供され、Apache 2.0オープンソースライセンスに従っています。ユーザーは無料でダウンロードして使用できます。

CogVideoX1.5-5B-SAT

Cogvideox1.5 5B SAT

CogVideoX1.5-5B-SATは、清華大学知識工程とデータマイニングチームが開発したオープンソースの動画生成モデルであり、CogVideoXモデルのアップグレード版です。このモデルは10秒間の動画生成に対応し、より高解像度の動画生成も可能です。Transformer、VAE、Text Encoderなどのモジュールを含んでおり、テキストの説明に基づいて動画コンテンツを生成できます。CogVideoX1.5-5B-SATモデルは、その強力な動画生成能力と高解像度サポートにより、特に教育、エンターテインメント、ビジネス分野において幅広い用途を持つ、動画コンテンツ制作者のための強力なツールとなります。

Hailuo AI.org

Hailuo AIはMiniMaxが開発した、最先端の人工知能生産性向上ツールです。動画コンテンツ制作の方法を一変させます。この革新的なプラットフォームでは、シンプルなテキストプロンプトから高品質な動画を生成できます。マーケティング担当者、教育者、コンテンツクリエイターに最適です。高速な処理時間と幅広いアートスタイルを特長とするHailuo AIは、テキストと画像プロンプトの組み合わせによる高度なパーソナライズされた出力が可能で、柔軟性を求めるクリエイターにとって魅力的なツールです。

Viral Video

Viral Videoは、人工知能技術を活用して、ユーザーが簡単に拡散力の高い動画を作成できるオンラインプラットフォームです。テキストから動画への変換、テキストから音声への変換、AIによる動画編集、AIによるシーン生成などの機能により、動画制作のプロセスを簡素化し、コストを削減し、動画の訴求力と拡散の可能性を高めます。特に、コンテンツクリエイター、マーケター、ソーシャルメディア運営者にとって最適で、低コストで迅速に高品質な動画コンテンツを作成し、ソーシャルメディア上でより多くの注目とインタラクションを獲得するのに役立ちます。

Mochi 1

Mochi 1は、Genmo社が発表した研究プレビュー版のオープンソース動画生成モデルです。AI動画分野における根本的な課題の解決を目指しています。比類のないモーションクオリティ、優れたプロンプトへの忠実性、アンキャニバレー（不気味の谷）を超える能力を特徴とし、自然で滑らかな人物の動きや表情を生成できます。Mochi 1の開発背景には、特にゲーム、映画、エンターテインメント業界における高品質な動画コンテンツ生成への需要の高まりがあります。現在、無料トライアルを提供しており、具体的な価格情報はページには記載されていません。

Dream Machine API

Dream Machine API

Dream Machine APIは、高度な動画生成モデルを提供する創造的なインテリジェンスプラットフォームです。直感的なAPIとオープンソースSDKを使用することで、ユーザーは創造的なAI製品を構築および拡張できます。テキストから動画、画像から動画、キーフレーム制御、拡張、ループ、カメラ制御などの機能を備え、創造的なインテリジェンスと人間の協働により、より良いコンテンツ制作を支援することを目指しています。Dream Machine APIの提供は、視覚的な探求と創造の豊かさを促進し、より多くのアイデアを試行し、より良い物語を構築し、これまで実現できなかった人々にも多様な物語を語らせることを目的としています。

Vadoo AI

Vadoo AIは、高度な人工知能技術を活用したフル機能のAI動画生成ツールです。ユーザーはテキストプロンプトを迅速に動画コンテンツに変換できます。多言語字幕、様々な動画スタイルとテンプレート、背景音楽、自動ズームなどの機能を提供し、動画制作をシンプルかつ効率的にします。ソーシャルメディアクリエイターから企業マーケティング担当者まで、あらゆるユーザーがプロフェッショナルな質の動画コンテンツを簡単に作成し、視聴者の注目を集め、維持することを支援します。

AI YouTube Shorts ジェネレーター

AI YouTube Shorts ジェネレーター

AI YouTube Shorts ジェネレーターは、GPT-4とWhisper技術を活用したPythonツールです。長尺動画から最も興味深いハイライトを抽出し、話者を検出し、ショートビデオ形式に合うように垂直方向にトリミングします。このツールは現在バージョン0.1であり、バグが発生する可能性があります。

CogVideo

CogVideoは、清華大学チームによって開発されたテキストから動画への生成モデルです。深層学習技術を用いて、テキストの説明を動画コンテンツに変換します。この技術は、動画コンテンツ制作、教育、エンターテインメントなど、幅広い分野で応用可能です。CogVideoモデルは大規模な事前学習によって、テキストの説明と一致する動画を生成し、動画制作に全く新しい自動化方式を提供します。

CogVideoX-5B

CogVideoXは、清華大学チームによって開発されたオープンソースの動画生成モデルであり、テキスト記述から動画を生成できます。入門レベルのモデルから大規模モデルまで、様々な動画生成モデルを提供しており、品質とコストのニーズに対応します。FP16とBF16を含む複数の精度に対応しており、推論にはモデルのトレーニング時に使用したのと同じ精度を使用することを推奨します。CogVideoX-5Bモデルは、映画制作、ゲーム開発、広告制作など、高品質な動画コンテンツの生成が必要なシーンに特に適しています。

Dream Machine AI.online

Dream Machine AI.online

Dream Machine AIは、最先端技術を用いてテキストと画像を高品質な動画に変換するAIプラットフォームです。Luma AIを駆使し、高度な変換モデルによって、物理的に正確で一貫性のある、複雑な時空間運動を持つ動画コンテンツを迅速に生成します。主な利点として、高速な生成速度、リアルで滑らかな動き、高いキャラクターの一貫性、自然なカメラワークが挙げられます。動画クリエイターやコンテンツ制作者に、迅速かつ効率的な動画生成ソリューションを提供することを目指しています。

AsyncDiff

AsyncDiffは、ノイズ予測モデルを複数のコンポーネントに分割し、異なるデバイスに割り当てることで、拡散モデルの並列処理を実現する非同期ノイズ除去による高速化ソリューションです。この手法により、推論遅延を大幅に削減しつつ、生成品質への影響を最小限に抑えます。AsyncDiffは、Stable Diffusion 2.1、Stable Diffusion 1.5、Stable Diffusion x4 Upscaler、Stable Diffusion XL 1.0、ControlNet、Stable Video Diffusion、AnimateDiffなど、複数の拡散モデルをサポートしています。

Kling

Kling AIは、快手科技が開発したテキストから動画を生成するモデルです。テキストプロンプトに基づいて、非常にリアルな動画を生成できます。最大2分間の30fps動画生成、3D時空間統合注意機構、物理世界シミュレーションなどの先進技術により、AI動画生成分野で大きな競争優位性を有しています。

ShareGPT4Video

ShareGPT4Videoシリーズは、緻密で正確な字幕を通じて、大規模なビデオ言語モデル（LVLMs）による動画の理解と、テキストから動画へのモデル（T2VMs）による動画生成を促進することを目的としています。このシリーズには、1）4万件のGPT-4V注釈付きの緻密な動画字幕であるShareGPT4Video（綿密なデータフィルタリングとアノテーション戦略によって開発）、2）480万件の高品質な美学動画に注釈を付けた、効率的で強力な任意の動画字幕モデルであるShareCaptioner-Video、3）3つの高度な動画ベンチマークテストで最高性能を達成した、シンプルながらも優れたLVLMであるShareGPT4Video-8Bが含まれています。

高品質新製品

Dream Machine AI

Dream Machine AI

Dream Machineは、Luma Labsが開発した最先端の人工知能モデルで、テキストと画像から迅速に高品質でリアルな動画を生成するように設計されています。この高度に拡張性があり効率的な変換モデルは、動画上で直接トレーニングされているため、物理的に正確で、一貫性があり、イベントに富んだ映像を生成できます。Dream Machine AIは、誰もが簡単にアクセスできる汎用的な想像力のエンジンを創造するという重要な一歩であり、滑らかな動き、映画のような品質、劇的な要素を含む5秒間の動画クリップを生成したり、静止画をダイナミックな物語に変換したりできます。このモデルは、物理世界における人々、動物、物体の相互作用を理解しており、優れたキャラクターの一貫性と正確な物理特性を持つ動画の作成を可能にしています。さらに、Dream Machine AIは、シーンの感情や内容に合わせて、幅広いスムーズで映画的で自然なカメラワークをサポートしています。

高品質新製品

MotionClone

MotionCloneは、訓練不要のフレームワークであり、参照動画からのモーションクローンによって、テキストから動画への生成を制御することを可能にします。時間的注意機構を利用して、動画反転において参照動画の動きを表し、主時間的注意誘導によって、注意重みにおけるノイズや非常に微妙な動きによる影響を軽減します。さらに、生成モデルが合理的な空間関係を合成し、プロンプトへの追従能力を高めるために、参照動画における前景の概略位置と、元の分類器の自由誘導特徴の位置認識意味誘導機構を提案しています。

Follow-Your-Pose

Follow Your Pose

Follow-Your-Poseは、姿勢情報とテキスト記述を用いて、編集可能で姿勢を制御できるキャラクター動画を生成するテキストから動画を生成するモデルです。この技術はデジタルキャラクター制作分野において重要な応用価値を持ち、包括的なデータセットと動画生成事前学習モデルの不足という課題を解決します。二段階学習計画により、事前学習済みのテキストから画像へのモデルを組み合わせ、姿勢制御可能な動画生成を実現しています。

Open-Sora-Plan-v1.1.0

Open Sora Plan V1.1.0

Open-Sora-Planは、北京大学元組チームによって開発されたテキストから動画を生成するモデルです。2024年4月にv1.0.0版が初公開され、シンプルで効率的な設計と優れた性能により、テキストから動画を生成する分野で広く認められています。v1.1.0版では、動画生成の品質と時間の長さにおいて大幅な改善が施され、圧縮された視覚表現の最適化、生成品質の向上、より長い動画の生成能力を実現しています。このモデルは最適化されたCausalVideoVAEアーキテクチャを採用し、より高い性能と推論効率を実現しています。さらに、v1.0.0版の極めてシンプルな設計とデータ効率性を維持しており、Sora基礎モデルと同等の性能を示しており、そのバージョンアップはSoraが示す拡張則と一致していることを示唆しています。

Lumina-T2X

Lumina-T2Xは、テキスト記述から鮮明な画像、ダイナミックな動画、詳細な多視点3D画像、合成音声などを生成できる、先進的なテキストから任意のモダリティへの生成フレームワークです。ストリーミングベースの大規模拡散トランスフォーマー（Flag-DiT）を採用し、最大7億パラメータに対応、シーケンス長は最大128,000トークンに拡張可能です。Lumina-T2Xは、画像、動画、3Dオブジェクトの多視点ビュー、音声スペクトログラムを時空間潜在トークン空間に統合することで、任意の解像度、アスペクト比、長さの出力生成を可能にします。

AIビデオジェネレーター - Soraによるテキスト動画変換

AIビデオジェネレーター Soraによるテキスト動画変換

AIビデオジェネレーターを使えば、誰でもテキストから驚くほど素晴らしい動画を作成できます。アイデアを動画化、ブログ記事を動画化、PPTを動画化、ツイートを動画化、アバター動画作成、製品紹介動画作成など、様々な機能を搭載。コンテンツ制作、ビジネスマーケティング、教育研修、eコマースなど、幅広い分野でご活用いただけます。

StreamingT2V

StreamingT2Vは、途切れのない、豊かな動的モーションを伴う長尺動画を生成できる先進的な自己回帰技術です。動画における時間的一貫性を確保し、記述テキストと密接に整合させながら、高いフレームレベルの画質を維持します。

AnimateDiff-Lightning

Animatediff Lightning

ByteDanceのAnimateDiff-Lightningプロジェクトは、独自のモデルと設定により、元のAnimateDiffよりも10倍以上高速なテキストから動画への生成を実現しました。

DynamiCrafter_1024

Dynamicrafter 1024

DynamiCrafterは、入力された画像とテキストに基づいて、約2秒間のダイナミックな動画を生成するテキストから動画を生成するモデルです。このモデルは、576x1024の高解像度動画を生成するようトレーニングされています。主な利点は、入力画像とテキストの説明のダイナミックな効果を捉え、リアルな短編動画コンテンツを生成できることです。動画制作、アニメーション制作などのシーンに適用でき、コンテンツ制作者に効率的な生産性ツールを提供します。現在、このモデルは研究段階にあり、個人および研究目的でのみ使用できます。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase