AI視頻生成

2025年最佳的 185 個AI視頻生成工具

京亦智能AI視頻生成

京亦智能AI視頻生成

京亦智能AI視頻生成神器是一款利用人工智能技術，將靜態的老照片轉化為動態視頻的產品。它結合了深度學習和圖像處理技術，使得用戶能夠輕鬆地將珍貴的老照片復活，創造出具有紀念意義的視頻內容。該產品的主要優點包括操作簡便、效果逼真、個性化定製等。它不僅能夠滿足個人用戶對於家庭影像資料的整理和創新需求，也能為商業用戶提供一種新穎的營銷和宣傳方式。目前，該產品提供免費試用，具體價格和定位信息需進一步瞭解。

TANGO Model

TANGO是一個基於層次化音頻-運動嵌入和擴散插值的共語手勢視頻重現技術。它利用先進的人工智能算法，將語音信號轉換成相應的手勢動作，實現視頻中人物手勢的自然重現。這項技術在視頻製作、虛擬現實、增強現實等領域具有廣泛的應用前景，能夠提升視頻內容的互動性和真實感。TANGO由東京大學和CyberAgent AI Lab聯合開發，代表了當前人工智能在手勢識別和動作生成領域的前沿水平。

Vmotionize

Vmotionize是一個領先的AI動畫和3D動畫軟件，它能夠將視頻、音樂、文本、圖片等內容轉換成令人驚歎的3D動畫。該平臺通過先進的AI動畫和動作捕捉工具，使得高質量的3D內容和動態圖形更加易於獲取。Vmotionize通過創新的方式為獨立創作者和全球品牌提供了一個全新的平臺，讓他們可以共同通過人工智能和人類想象力來實現創意、分享故事和構建虛擬世界。

Coverr AI Workflows

Coverr AI Workflows

Coverr AI Workflows是一個專注於AI視頻生成的平臺，提供多種AI工具和工作流程，幫助用戶通過簡單的步驟生成高質量的視頻內容。該平臺彙集了AI視頻專家的智慧，通過社區分享的workflows，用戶可以學習如何使用不同的AI工具來創作視頻。Coverr AI Workflows的背景是基於人工智能技術在視頻製作領域的應用日益廣泛，它通過提供易於理解和操作的工作流程，降低了視頻創作的技術門檻，使得非專業人士也能創作出專業級別的視頻內容。Coverr AI Workflows目前提供免費的視頻和音樂資源，定位於滿足創意工作者和小型企業的視頻製作需求。

AI視頻生成神器

AI視頻生成神器

AI視頻生成神器是一款利用人工智能技術，將圖片或文字轉換成視頻內容的在線工具。它通過深度學習算法，能夠理解圖片和文字的含義，自動生成具有吸引力的視頻內容。這種技術的應用，極大地降低了視頻製作的成本和門檻，使得普通用戶也能輕鬆製作出專業級別的視頻。產品背景信息顯示，隨著社交媒體和視頻平臺的興起，用戶對視頻內容的需求日益增長，而傳統的視頻製作方式成本高、耗時長，難以滿足快速變化的市場需求。AI視頻生成神器的出現，正好填補了這一市場空白，為用戶提供了一種快速、低成本的視頻製作解決方案。目前，該產品提供免費試用，具體價格需要在網站上查詢。

DreamMesh4D

DreamMesh4D是一個結合了網格表示與稀疏控制變形技術的新型框架，能夠從單目視頻中生成高質量的4D對象。該技術通過結合隱式神經輻射場（NeRF）或顯式的高斯繪製作為底層表示，解決了傳統方法在空間-時間一致性和表面紋理質量方面的挑戰。DreamMesh4D利用現代3D動畫流程的靈感，將高斯繪製綁定到三角網格表面，實現了紋理和網格頂點的可微優化。該框架開始於由單圖像3D生成方法提供的粗糙網格，通過均勻採樣稀疏點來構建變形圖，以提高計算效率並提供額外的約束。通過兩階段學習，結合參考視圖光度損失、得分蒸餾損失以及其他正則化損失，實現了靜態表面高斯和網格頂點以及動態變形網絡的學習。DreamMesh4D在渲染質量和空間-時間一致性方面優於以往的視頻到4D生成方法，並且其基於網格的表示與現代幾何流程兼容，展示了其在3D遊戲和電影行業的潛力。

Pyramid Flow

Pyramid Flow 是一種高效的視頻生成建模技術，它基於流匹配方法，通過自迴歸視頻生成模型來實現。該技術主要優點是訓練效率高，能夠在開源數據集上以較低的GPU小時數進行訓練，生成高質量的視頻內容。Pyramid Flow 的背景信息包括由北京大學、快手科技和北京郵電大學共同研發，並且已經在多個平臺上發佈了相關的論文、代碼和模型。

AI Hug Video

AI Hug Video Generator是一個在線平臺，使用先進的機器學習技術將靜態照片轉換成動態、逼真的擁抱視頻。用戶可以根據自己的珍貴照片創建個性化、充滿情感的視頻。該技術通過分析真實人類互動來創建真實感的數字擁抱，包括微妙的手勢和情感。平臺提供了用戶友好的界面，無論是技術愛好者還是視頻製作新手，都能輕鬆製作AI擁抱視頻。此外，生成的視頻是高清的，適合在任何平臺上分享，確保在每個屏幕上都能呈現出色的效果。

JoggAI

JoggAI是一個利用人工智能技術，幫助用戶將產品鏈接或視覺素材快速轉換成吸引人的視頻廣告的平臺。它提供了豐富的模板、多樣的AI虛擬形象，以及快速響應的服務，以創造引人入勝的內容，促進網站流量和銷售。JoggAI的主要優點包括快速的視頻內容創建、AI腳本撰寫、批量模式製作、視頻剪輯理解、文本到語音轉換等。這些功能使得JoggAI非常適合需要高效製作視頻內容的電子商務、市場營銷、銷售和商業所有者以及代理和自由職業者。

Hailuo AI

Hailuo AI Video Generator 是一款利用人工智能技術，根據文本提示自動生成視頻內容的工具。它通過深度學習算法，將用戶的文字描述轉化為視覺圖像，極大地簡化了視頻製作流程，提高了創作效率。該產品適用於需要快速生成視頻內容的個人和企業，特別是在廣告、社交媒體內容製作和電影預覽等領域。

光映AI

光映AI是一個利用人工智能技術幫助用戶快速創建熱門視頻的平臺。它通過AI技術簡化了視頻編輯過程，使得用戶無需視頻編輯技能也能製作出高質量的視頻內容。該平臺特別適合需要快速製作視頻內容的個人和企業，如社交媒體運營者、視頻博主等。

Meta Movie Gen

Meta Movie Gen 是一個先進的媒體基礎AI模型，它允許用戶通過簡單的文本輸入來生成定製的視頻和聲音，編輯現有視頻或將個人圖像轉換成獨特的視頻。這項技術代表了AI在內容創造方面的最新突破，為內容創作者提供了前所未有的創作自由度和效率。

PhysGen

PhysGen是一個創新的圖像到視頻生成方法，它能夠將單張圖片和輸入條件（例如，對圖片中物體施加的力和扭矩）轉換成現實、物理上合理且時間上連貫的視頻。該技術通過將基於模型的物理模擬與數據驅動的視頻生成過程相結合，實現了在圖像空間中的動態模擬。PhysGen的主要優點包括生成的視頻在物理和外觀上都顯得逼真，並且可以精確控制，通過定量比較和全面的用戶研究，展示了其在現有數據驅動的圖像到視頻生成工作中的優越性。

MIMO

MIMO是一個通用的視頻合成模型，能夠模仿任何人在複雜動作中與物體互動。它能夠根據用戶提供的簡單輸入（如參考圖像、姿勢序列、場景視頻或圖像）合成具有可控屬性（如角色、動作和場景）的角色視頻。MIMO通過將2D視頻編碼為緊湊的空間代碼，並將其分解為三個空間組成部分（主要人物、底層場景和浮動遮擋）來實現這一點。這種方法允許用戶靈活控制，空間運動表達以及3D感知合成，適用於交互式真實世界場景。

DualGS

Robust Dual Gaussian Splatting (DualGS) 是一種新型的基於高斯的體積視頻表示方法，它通過優化關節高斯和皮膚高斯來捕捉複雜的人體表演，並實現魯棒的跟蹤和高保真渲染。該技術在SIGGRAPH Asia 2024上展示，能夠實現在低端移動設備和VR頭顯上的即時渲染，提供用戶友好和互動的體驗。DualGS通過混合壓縮策略，實現了高達120倍的壓縮比，使得體積視頻的存儲和傳輸更加高效。

LVCD

LVCD 是一種基於參考的線稿視頻上色技術，採用大規模預訓練的視頻擴散模型，生成色彩化動畫視頻。該技術通過Sketch-guided ControlNet和Reference Attention，實現了對快速和大幅度運動的動畫視頻進行色彩化處理，同時保證了時間上的連貫性。LVCD的主要優點包括生成色彩化動畫視頻的時間連貫性、處理大運動的能力以及高質量的輸出結果。

Runway API

Runway API是一個強大的視頻模型平臺，提供先進的生成視頻模型，允許用戶在安全、可靠的環境中嵌入Gen-3 Alpha Turbo到他們的產品中。它支持廣泛的應用場景，包括創意廣告、音樂視頻、電影製作等，是全球頂尖創意人士的首選。

Dream Machine API

Dream Machine API

Dream Machine API是一個創意智能平臺，它提供了一系列先進的視頻生成模型，通過直觀的API和開源SDKs，用戶可以構建和擴展創意AI產品。該平臺擁有文本到視頻、圖像到視頻、關鍵幀控制、擴展、循環和相機控制等功能，旨在通過創意智能與人類合作，幫助他們創造更好的內容。Dream Machine API的推出，旨在推動視覺探索和創造的豐富性，讓更多的想法得以嘗試，構建更好的敘事，並讓那些以前無法做到的人講述多樣化的故事。

AI-Faceless-Video-Generator

AI Faceless Video Generator

AI-Faceless-Video-Generator是一個利用人工智能技術，根據話題生成視頻腳本、語音和會說話頭像的項目。它結合了sadtalker進行面部動畫，gTTS生成AI語音和OpenAI語言模型生成腳本，提供了一個端到端的解決方案，用於生成個性化視頻。該項目的主要優點包括腳本生成、AI語音生成、面部動畫創建以及易於使用的界面。

通義萬相AI視頻生成

通義萬相AI視頻生成

通義萬相AI創意作畫是一款利用人工智能技術，將用戶的文字描述或圖像轉化為視頻內容的產品。它通過先進的AI算法，能夠理解用戶的創意意圖，自動生成具有藝術感的視頻。該產品不僅能夠提升內容創作的效率，還能激發用戶的創造力，適用於廣告、教育、娛樂等多個領域。

Generative Keyframe Interpolation with Forward-Backward Consistency

Generative Keyframe Interpolation With Forward Backward Consistency

該產品是一個圖像到視頻的擴散模型，通過輕量級的微調技術，能夠從一對關鍵幀生成具有連貫運動的連續視頻序列。這種方法特別適用於需要在兩個靜態圖像之間生成平滑過渡動畫的場景，如動畫製作、視頻編輯等。它利用了大規模圖像到視頻擴散模型的強大能力，通過微調使其能夠預測兩個關鍵幀之間的視頻，從而實現前向和後向的一致性。

Follow-Your-Canvas

Follow Your Canvas

Follow-Your-Canvas 是一種基於擴散模型的視頻外延技術，它能夠生成高分辨率的視頻內容。該技術通過分佈式處理和空間窗口合併，解決了GPU內存限制問題，同時保持了視頻的空間和時間一致性。它在大規模視頻外延方面表現出色，能夠將視頻分辨率顯著提升，如從512 X 512擴展到1152 X 2048，同時生成高質量和視覺上令人愉悅的結果。

Runway Staff Picks

Runway Staff Picks

Runway Staff Picks 是一個展示使用 Runway Gen-3 Alpha 技術創作的精選短片和實驗作品的平臺。這些作品涵蓋了從藝術到科技的多個領域，展示了 Runway 在視頻創作和實驗藝術方面的前沿技術。Runway 與 Tribeca Festival 2024 合作，通過與 Media.Monks 的合作，進一步擴展了創意的邊界。

Loopy model

Loopy是一個端到端的音頻驅動視頻擴散模型，專門設計了跨剪輯和內部剪輯的時間模塊以及音頻到潛在表示模塊，使模型能夠利用數據中的長期運動信息來學習自然運動模式，並提高音頻與肖像運動的相關性。這種方法消除了現有方法中手動指定的空間運動模板的需求，實現了在各種場景下更逼真、高質量的結果。

CyberHost

CyberHost是一個端到端音頻驅動的人體動畫框架，通過區域碼本注意力機制，實現了手部完整性、身份一致性和自然運動的生成。該模型利用雙U-Net架構作為基礎結構，並通過運動幀策略進行時間延續，為音頻驅動的人體動畫建立了基線。CyberHost通過一系列以人為先導的訓練策略，包括身體運動圖、手部清晰度評分、姿勢對齊的參考特徵和局部增強監督，提高了合成結果的質量。CyberHost是首個能夠在人體範圍內實現零樣本視頻生成的音頻驅動人體擴散模型。

CogVideo

CogVideo是由清華大學團隊開發的文本到視頻生成模型，它通過深度學習技術將文本描述轉換為視頻內容。該技術在視頻內容創作、教育、娛樂等領域具有廣泛的應用前景。CogVideo模型通過大規模預訓練，能夠生成與文本描述相匹配的視頻，為視頻製作提供了一種全新的自動化方式。

Creatify 2.0

Creatify 2.0是一款AI視頻廣告製作器，具有文本到視頻的轉換功能和AI編輯功能，旨在創建病毒式廣告創意，提升市場營銷效率。它支持9種以上的風格，包括卡通、現實、3D等，幫助用戶快速生成引人入勝的視頻廣告，並且能夠針對特定受眾進行定製化推廣。

CogVideoX-5B

CogVideoX是一個開源的視頻生成模型，由清華大學團隊開發，支持從文本描述生成視頻。它提供了多種視頻生成模型，包括入門級和大型模型，以滿足不同質量和成本需求。模型支持多種精度，包括FP16和BF16，推薦使用與模型訓練時相同的精度進行推理。CogVideoX-5B模型特別適用於需要生成高質量視頻內容的場景，如電影製作、遊戲開發和廣告創意。

Video-CCAM

Video-CCAM 是騰訊QQ多媒體研究團隊開發的一系列靈活的視頻多語言模型（Video-MLLM），致力於提升視頻-語言理解能力，特別適用於短視頻和長視頻的分析。它通過因果交叉注意力掩碼（Causal Cross-Attention Masks）來實現這一目標。Video-CCAM 在多個基準測試中表現優異，特別是在 MVBench、VideoVista 和 MLVU 上。模型的源代碼已經重寫，以簡化部署過程。

auto-video-generateor

Auto Video Generateor

auto-video-generateor自動視頻生成器是一個創新的AI模型，能夠根據用戶輸入的主題文字，自動生成解說視頻。它利用大語言模型生成故事或解說文本，再通過語音合成技術生成解說語音，結合文生圖技術生成與文本內容相匹配的圖片，最終將這些元素融合生成解說視頻。產品背景基於百度智能雲的千帆大模型平臺，採用ERNIE系列模型，結合開源的語音合成和文生圖技術，實現自動化視頻生成流程。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase