文本到視頻

# 文本到視頻

Wan 2.1 AI

Wan 2.1 AI 是由阿里巴巴開發的開源大規模視頻生成 AI 模型。它支持文本到視頻（T2V）和圖像到視頻（I2V）的生成，能夠將簡單的輸入轉化為高質量的視頻內容。該模型在視頻生成領域具有重要意義，能夠極大地簡化視頻創作流程，降低創作門檻，提高創作效率，為用戶提供豐富多樣的視頻創作可能性。其主要優點包括高質量的視頻生成效果、複雜動作的流暢展現、逼真的物理模擬以及豐富的藝術風格等。目前該產品已完全開源，用戶可以免費使用其基礎功能，對於有視頻創作需求但缺乏專業技能或設備的個人和企業來說，具有很高的實用價值。

Wan2GP

Wan2GP 是基於 Wan2.1 的改進版本，旨在為低配置 GPU 用戶提供高效、低內存佔用的視頻生成解決方案。該模型通過優化內存管理和加速算法，使得普通用戶也能在消費級 GPU 上快速生成高質量的視頻內容。它支持多種任務，包括文本到視頻、圖像到視頻、視頻編輯等，同時具備強大的視頻 VAE 架構，能夠高效處理 1080P 視頻。Wan2GP 的出現降低了視頻生成技術的門檻，使得更多用戶能夠輕鬆上手並應用於實際場景。

Wan2.1-T2V-14B

Wan2.1-T2V-14B 是一款先進的文本到視頻生成模型，基於擴散變換器架構，結合了創新的時空變分自編碼器（VAE）和大規模數據訓練。它能夠在多種分辨率下生成高質量的視頻內容，支持中文和英文文本輸入，並在性能和效率上超越現有的開源和商業模型。該模型適用於需要高效視頻生成的場景，如內容創作、廣告製作和視頻編輯等。目前該模型在 Hugging Face 平臺上免費提供，旨在推動視頻生成技術的發展和應用。

FlashVideo

FlashVideo 是一款專注於高效高分辨率視頻生成的深度學習模型。它通過分階段的生成策略，首先生成低分辨率視頻，再通過增強模型提升至高分辨率，從而在保證細節的同時顯著降低計算成本。該技術在視頻生成領域具有重要意義，尤其是在需要高質量視覺內容的場景中。FlashVideo 適用於多種應用場景，包括內容創作、廣告製作和視頻編輯等。其開源性質使得研究人員和開發者可以靈活地進行定製和擴展。

Magic 1-For-1

Magic 1-For-1 是一個專注於高效視頻生成的模型，其核心功能是將文本和圖像快速轉換為視頻。該模型通過將文本到視頻的生成任務分解為文本到圖像和圖像到視頻兩個子任務，優化了內存使用並減少了推理延遲。其主要優點包括高效性、低延遲和可擴展性。該模型由北京大學 DA-Group 團隊開發，旨在推動交互式基礎視頻生成領域的發展。目前該模型及相關代碼已開源，用戶可以免費使用，但需遵守開源許可協議。

STAR是一種創新的視頻超分辨率技術，通過將文本到視頻擴散模型與視頻超分辨率相結合，解決了傳統GAN方法中存在的過度平滑問題。該技術不僅能夠恢復視頻的細節，還能保持視頻的時空一致性，適用於各種真實世界的視頻場景。STAR由南京大學、字節跳動等機構聯合開發，具有較高的學術價值和應用前景。

ClipVideo AI

ClipVideo AI是一個專業的AI視頻生成平臺，它利用人工智能技術將照片或簡單的文本提示轉換成引人入勝的視頻。該平臺以其快速的視頻生成工具、企業級的安全性和支持、以及被眾多團隊信賴而著稱。ClipVideo AI提供了從基礎到專業的不同定價計劃，滿足不同用戶的需求。

VideoVAEPlus

這是一個視頻變分自編碼器（VAE），旨在減少視頻冗餘並促進高效視頻生成。該模型通過觀察發現，將圖像VAE直接擴展到3D VAE會引入運動模糊和細節失真，因此提出了時間感知的空間壓縮以更好地編碼和解碼空間信息。此外，該模型還集成了一個輕量級的運動壓縮模型以實現進一步的時間壓縮。通過利用文本到視頻數據集中固有的文本信息，並在模型中加入文本指導，顯著提高了重建質量，特別是在細節保留和時間穩定性方面。該模型還通過在圖像和視頻上進行聯合訓練來提高其通用性，不僅提高了重建質量，還使模型能夠執行圖像和視頻的自編碼。廣泛的評估表明，該方法的性能優於最近的強基線。

Zebracat

Zebracat是一個利用人工智能技術，幫助用戶將文本、博客內容快速轉換成專業視頻的平臺。它通過AI視頻生成器，提供文本到視頻、博客到視頻、AI場景生成等功能，極大地簡化了視頻製作流程，提高了內容創作的效率。Zebracat的主要優點包括快速生成視頻、無需專業編輯技能、支持多種語言和AI配音，以及提供高影響力的營銷視頻。產品背景信息顯示，Zebracat受到超過50,000名AI創作者的喜愛，並在Product Hunt上獲得高度評價。

Pollo AI

Pollo AI是一個創新的AI視頻生成器，它允許用戶輕鬆創建令人驚歎的視頻。用戶可以通過簡單的文本提示或靜態圖片，快速生成具有特定風格和內容的視頻。Pollo AI以其用戶友好的界面、廣泛的定製選項和高質量的輸出而脫穎而出，是初學者和經驗豐富的創作者的首選。它不僅支持文本到視頻的生成，還可以根據圖片內容和用戶需求生成視頻，擁有多種模板，包括AI擁抱視頻生成器，可以輕鬆製作溫馨感人的擁抱視頻。Pollo AI以其快速的視頻生成能力、高質量的輸出和無需技術視頻編輯技能即可使用的易用性，為用戶提供了無限的創作可能性。

ConsisID

ConsisID是一個基於頻率分解的身份保持文本到視頻生成模型，它通過在頻域中使用身份控制信號來生成與輸入文本描述一致的高保真度視頻。該模型不需要針對不同案例進行繁瑣的微調，並且能夠保持生成視頻中人物身份的一致性。ConsisID的提出，推動了視頻生成技術的發展，特別是在無需調整的流程和頻率感知的身份保持控制方案方面。

Allegro-TI2V

Allegro-TI2V是一個文本圖像到視頻生成模型，它能夠根據用戶提供的提示和圖像生成視頻內容。該模型以其開源性、多樣化的內容創作能力、高質量的輸出、小巧高效的模型參數以及支持多種精度和GPU內存優化而受到關注。它代表了當前人工智能技術在視頻生成領域的前沿進展，具有重要的技術價值和商業應用潛力。Allegro-TI2V模型在Hugging Face平臺上提供，遵循Apache 2.0開源協議，用戶可以免費下載和使用。

Pyramid Flow miniFLUX

Pyramid Flow Miniflux

Pyramid Flow miniFLUX是一個基於流匹配的自迴歸視頻生成方法，專注於訓練效率和開源數據集的使用。該模型能夠生成高質量的10秒768p分辨率、24幀每秒的視頻，並自然支持圖像到視頻的生成。它是視頻內容創作和研究領域的一個重要工具，尤其在需要生成連貫動態圖像的場合。

CogVideoX1.5-5B-SAT

Cogvideox1.5 5B SAT

CogVideoX1.5-5B-SAT是由清華大學知識工程與數據挖掘團隊開發的開源視頻生成模型，是CogVideoX模型的升級版。該模型支持生成10秒視頻，並支持更高分辨率的視頻生成。模型包含Transformer、VAE和Text Encoder等模塊，能夠根據文本描述生成視頻內容。CogVideoX1.5-5B-SAT模型以其強大的視頻生成能力和高分辨率支持，為視頻內容創作者提供了一個強大的工具，尤其在教育、娛樂和商業領域有著廣泛的應用前景。

Hailuo AI.org

Hailuo AI是由MiniMax開發的一款先進的人工智能生產力工具，旨在改變視頻內容創作的方式。這一創新平臺允許用戶通過簡單的文字提示生成高質量的視頻，特別適合營銷人員、教育工作者和內容創作者使用。Hailuo AI以其快速的處理時間和廣泛的藝術風格而表現出色，結合文本和圖像提示的功能可實現高度個性化的輸出，因此對追求靈活性的創作者很有吸引力。

Viral Video

Viral Video是一個利用人工智能技術幫助用戶快速創建病毒式視頻的在線平臺。它通過文本到視頻的轉換、文本到語音的轉換、AI視頻編輯和AI場景生成等功能，簡化了視頻製作流程，降低了成本，並提高了視頻的吸引力和傳播潛力。該平臺特別適合內容創作者、營銷人員和社交媒體運營者，幫助他們以更低的成本和更快的速度製作出高質量的視頻內容，從而在社交媒體上獲得更多的關注和互動。

Mochi 1

Mochi 1 是 Genmo 公司推出的一款研究預覽版本的開源視頻生成模型，它致力於解決當前AI視頻領域的基本問題。該模型以其無與倫比的運動質量、卓越的提示遵循能力和跨越恐怖谷的能力而著稱，能夠生成連貫、流暢的人類動作和表情。Mochi 1 的開發背景是響應對高質量視頻內容生成的需求，特別是在遊戲、電影和娛樂行業中。產品目前提供免費試用，具體定價信息未在頁面中提供。

Allegro

Allegro是由Rhymes AI開發的高級文本到視頻模型，它能夠將簡單的文本提示轉換成高質量的短視頻片段。Allegro的開源特性使其成為創作者、開發者和AI視頻生成領域研究人員的強大工具。Allegro的主要優點包括開源、內容創作多樣化、高質量輸出以及模型體積小且高效。它支持多種精度（FP32、BF16、FP16），在BF16模式下，GPU內存使用量為9.3 GB，上下文長度為79.2k，相當於88幀。Allegro的技術核心包括大規模視頻數據處理、視頻壓縮成視覺令牌以及擴展視頻擴散變換器。

Dream Machine API

Dream Machine API

Dream Machine API是一個創意智能平臺，它提供了一系列先進的視頻生成模型，通過直觀的API和開源SDKs，用戶可以構建和擴展創意AI產品。該平臺擁有文本到視頻、圖像到視頻、關鍵幀控制、擴展、循環和相機控制等功能，旨在通過創意智能與人類合作，幫助他們創造更好的內容。Dream Machine API的推出，旨在推動視覺探索和創造的豐富性，讓更多的想法得以嘗試，構建更好的敘事，並讓那些以前無法做到的人講述多樣化的故事。

AI Youtube Shorts Generator

AI Youtube Shorts Generator

AI Youtube Shorts Generator 是一個利用GPT-4和Whisper技術的Python工具，它可以從長視頻中提取最有趣的亮點，檢測演講者，並將內容垂直裁剪，以適應短片格式。這個工具目前處於0.1版本，可能存在一些bug。

CogVideo

CogVideo是由清華大學團隊開發的文本到視頻生成模型，它通過深度學習技術將文本描述轉換為視頻內容。該技術在視頻內容創作、教育、娛樂等領域具有廣泛的應用前景。CogVideo模型通過大規模預訓練，能夠生成與文本描述相匹配的視頻，為視頻製作提供了一種全新的自動化方式。

CogVideoX-5B

CogVideoX是一個開源的視頻生成模型，由清華大學團隊開發，支持從文本描述生成視頻。它提供了多種視頻生成模型，包括入門級和大型模型，以滿足不同質量和成本需求。模型支持多種精度，包括FP16和BF16，推薦使用與模型訓練時相同的精度進行推理。CogVideoX-5B模型特別適用於需要生成高質量視頻內容的場景，如電影製作、遊戲開發和廣告創意。

Dream Machine AI.online

Dream Machine AI.online

Dream Machine AI是一個利用尖端技術將文字和圖片轉化為高質量視頻的AI平臺。它由Luma AI驅動，使用先進的變換模型快速生成具有複雜時空運動的物理準確和一致的視頻內容。主要優點包括生成速度快、運動逼真連貫、角色一致性高、相機運動自然。產品定位為視頻創作者和內容製作者提供快速高效的視頻生成解決方案。

CogVideoX

CogVideoX是一個開源的視頻生成模型，與商業模型同源，支持通過文本描述生成視頻內容。它代表了文本到視頻生成技術的最新進展，具有生成高質量視頻的能力，能夠廣泛應用於娛樂、教育、商業宣傳等領域。

Open-Sora Plan v1.2

Open Sora Plan V1.2

Open-Sora Plan v1.2是一個開源的視頻生成模型，專注於文本到視頻的轉換任務。它採用3D全注意力架構，優化了視頻的視覺表示，並提高了推理效率。該模型在視頻生成領域具有創新性，能夠更好地捕捉聯合空間-時間特徵，為視頻內容的自動生成提供了新的技術路徑。

AsyncDiff

AsyncDiff 是一種用於並行化擴散模型的異步去噪加速方案，它通過將噪聲預測模型分割成多個組件並分配到不同的設備上，實現了模型的並行處理。這種方法顯著減少了推理延遲，同時對生成質量的影響很小。AsyncDiff 支持多種擴散模型，包括 Stable Diffusion 2.1、Stable Diffusion 1.5、Stable Diffusion x4 Upscaler、Stable Diffusion XL 1.0、ControlNet、Stable Video Diffusion 和 AnimateDiff。

Kling

Kling AI是由快手科技開發的文本到視頻生成模型，能夠根據文本提示生成高度逼真的視頻。它具有高效的視頻生成能力，長達2分鐘的30幀每秒視頻，以及3D時空聯合注意機制和物理世界模擬等先進技術，使其在AI視頻生成領域具有顯著的競爭優勢。

ShareGPT4Video

ShareGPT4Video系列旨在通過密集且精確的字幕來促進大型視頻-語言模型(LVLMs)的視頻理解以及文本到視頻模型(T2VMs)的視頻生成。該系列包括：1) ShareGPT4Video，40K GPT4V註釋的密集視頻字幕，通過精心設計的數據過濾和註釋策略開發而成。2) ShareCaptioner-Video，一個高效且功能強大的任意視頻字幕模型，由其註釋的4.8M高質量美學視頻。3) ShareGPT4Video-8B，一個簡單但卓越的LVLM，其在三個先進的視頻基準測試中達到了最佳性能。

VideoTetris

VideoTetris是一個新穎的框架，它實現了文本到視頻的生成，特別適用於處理包含多個對象或對象數量動態變化的複雜視頻生成場景。該框架通過空間時間組合擴散技術，精確地遵循複雜的文本語義，並通過操作和組合去噪網絡的空間和時間注意力圖來實現。此外，它還引入了一種新的參考幀注意力機制，以提高自迴歸視頻生成的一致性。VideoTetris在組合文本到視頻生成方面取得了令人印象深刻的定性和定量結果。

Dream Machine AI

Dream Machine AI

Dream Machine是由Luma Labs開發的一款先進的人工智能模型，旨在快速從文本和圖片生成高質量的、逼真的視頻。這個高度可擴展且高效的變換模型直接在視頻上訓練，使其能夠產生物理上準確、一致且充滿事件的鏡頭。Dream Machine AI是朝著創建通用想象力引擎邁出的重要一步，使每個人都能輕鬆訪問。它可以生成帶有平滑動作、電影質量和戲劇元素的5秒視頻片段，將靜態快照轉化為動態故事。該模型理解物理世界中人與人之間、動物和物體之間的互動，允許創建具有極佳角色一致性和準確物理的視頻。此外，Dream Machine AI支持廣泛的流暢、電影化和自然主義的攝像機運動，與場景的情感和內容相匹配。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase