圖像到視頻

# 圖像到視頻

Wan 2.1 AI

Wan 2.1 AI 是由阿里巴巴開發的開源大規模視頻生成 AI 模型。它支持文本到視頻（T2V）和圖像到視頻（I2V）的生成，能夠將簡單的輸入轉化為高質量的視頻內容。該模型在視頻生成領域具有重要意義，能夠極大地簡化視頻創作流程，降低創作門檻，提高創作效率，為用戶提供豐富多樣的視頻創作可能性。其主要優點包括高質量的視頻生成效果、複雜動作的流暢展現、逼真的物理模擬以及豐富的藝術風格等。目前該產品已完全開源，用戶可以免費使用其基礎功能，對於有視頻創作需求但缺乏專業技能或設備的個人和企業來說，具有很高的實用價值。

Wan2GP

Wan2GP 是基於 Wan2.1 的改進版本，旨在為低配置 GPU 用戶提供高效、低內存佔用的視頻生成解決方案。該模型通過優化內存管理和加速算法，使得普通用戶也能在消費級 GPU 上快速生成高質量的視頻內容。它支持多種任務，包括文本到視頻、圖像到視頻、視頻編輯等，同時具備強大的視頻 VAE 架構，能夠高效處理 1080P 視頻。Wan2GP 的出現降低了視頻生成技術的門檻，使得更多用戶能夠輕鬆上手並應用於實際場景。

Wan2.1-T2V-14B

Wan2.1-T2V-14B 是一款先進的文本到視頻生成模型，基於擴散變換器架構，結合了創新的時空變分自編碼器（VAE）和大規模數據訓練。它能夠在多種分辨率下生成高質量的視頻內容，支持中文和英文文本輸入，並在性能和效率上超越現有的開源和商業模型。該模型適用於需要高效視頻生成的場景，如內容創作、廣告製作和視頻編輯等。目前該模型在 Hugging Face 平臺上免費提供，旨在推動視頻生成技術的發展和應用。

Magic 1-For-1

Magic 1-For-1 是一個專注於高效視頻生成的模型，其核心功能是將文本和圖像快速轉換為視頻。該模型通過將文本到視頻的生成任務分解為文本到圖像和圖像到視頻兩個子任務，優化了內存使用並減少了推理延遲。其主要優點包括高效性、低延遲和可擴展性。該模型由北京大學 DA-Group 團隊開發，旨在推動交互式基礎視頻生成領域的發展。目前該模型及相關代碼已開源，用戶可以免費使用，但需遵守開源許可協議。

Ruyi-Models

Ruyi-Models是一個圖像到視頻的模型，能夠生成高達768分辨率、每秒24幀的電影級視頻，支持鏡頭控制和運動幅度控制。使用RTX 3090或RTX 4090顯卡，可以無損生成512分辨率、120幀的視頻。該模型以其高質量的視頻生成能力和對細節的精確控制而受到關注，尤其在需要生成高質量視頻內容的領域，如電影製作、遊戲製作和虛擬現實體驗中具有重要應用價值。

Ruyi-Mini-7B

Ruyi-Mini-7B是由CreateAI團隊開發的開源圖像到視頻生成模型，具有約71億參數，能夠從輸入圖像生成360p到720p分辨率的視頻幀，最長5秒。模型支持不同寬高比，並增強了運動和相機控制功能，提供更大的靈活性和創造力。該模型在Apache 2.0許可下發布，意味著用戶可以自由使用和修改。

ComfyUI-HunyuanVideoWrapper-IP2V

Comfyui HunyuanVideoWrapper IP2V

ComfyUI-HunyuanVideoWrapper-IP2V是一個基於HunyuanVideo的視頻生成工具，它允許用戶通過圖像提示生成視頻（IP2V），即利用圖像作為生成視頻的條件，提取圖像的概念和風格。這項技術主要優點在於能夠將圖像的風格和內容融入視頻生成過程中，而不僅僅是作為視頻的第一幀。產品背景信息顯示，該工具目前處於實驗階段，但已經可以工作，且對VRAM有較高要求，至少需要20GB。

Allegro-TI2V

Allegro-TI2V是一個文本圖像到視頻生成模型，它能夠根據用戶提供的提示和圖像生成視頻內容。該模型以其開源性、多樣化的內容創作能力、高質量的輸出、小巧高效的模型參數以及支持多種精度和GPU內存優化而受到關注。它代表了當前人工智能技術在視頻生成領域的前沿進展，具有重要的技術價值和商業應用潛力。Allegro-TI2V模型在Hugging Face平臺上提供，遵循Apache 2.0開源協議，用戶可以免費下載和使用。

Pyramid Flow miniFLUX

Pyramid Flow Miniflux

Pyramid Flow miniFLUX是一個基於流匹配的自迴歸視頻生成方法，專注於訓練效率和開源數據集的使用。該模型能夠生成高質量的10秒768p分辨率、24幀每秒的視頻，並自然支持圖像到視頻的生成。它是視頻內容創作和研究領域的一個重要工具，尤其在需要生成連貫動態圖像的場合。

Hailuo AI.org

Hailuo AI是由MiniMax開發的一款先進的人工智能生產力工具，旨在改變視頻內容創作的方式。這一創新平臺允許用戶通過簡單的文字提示生成高質量的視頻，特別適合營銷人員、教育工作者和內容創作者使用。Hailuo AI以其快速的處理時間和廣泛的藝術風格而表現出色，結合文本和圖像提示的功能可實現高度個性化的輸出，因此對追求靈活性的創作者很有吸引力。

PhysGen

PhysGen是一個創新的圖像到視頻生成方法，它能夠將單張圖片和輸入條件（例如，對圖片中物體施加的力和扭矩）轉換成現實、物理上合理且時間上連貫的視頻。該技術通過將基於模型的物理模擬與數據驅動的視頻生成過程相結合，實現了在圖像空間中的動態模擬。PhysGen的主要優點包括生成的視頻在物理和外觀上都顯得逼真，並且可以精確控制，通過定量比較和全面的用戶研究，展示了其在現有數據驅動的圖像到視頻生成工作中的優越性。

Dream Machine API

Dream Machine API

Dream Machine API是一個創意智能平臺，它提供了一系列先進的視頻生成模型，通過直觀的API和開源SDKs，用戶可以構建和擴展創意AI產品。該平臺擁有文本到視頻、圖像到視頻、關鍵幀控制、擴展、循環和相機控制等功能，旨在通過創意智能與人類合作，幫助他們創造更好的內容。Dream Machine API的推出，旨在推動視覺探索和創造的豐富性，讓更多的想法得以嘗試，構建更好的敘事，並讓那些以前無法做到的人講述多樣化的故事。

AI Youtube Shorts Generator

AI Youtube Shorts Generator

AI Youtube Shorts Generator 是一個利用GPT-4和Whisper技術的Python工具，它可以從長視頻中提取最有趣的亮點，檢測演講者，並將內容垂直裁剪，以適應短片格式。這個工具目前處於0.1版本，可能存在一些bug。

Vchitect 2.0

Vchitect 2.0（築夢2.0）是一款由上海人工智能實驗室開發的高級視頻生成模型，旨在賦予視頻創作新的動力。它支持20秒視頻生成，靈活的寬高比，生成空間時間增強，以及長視頻評估。Vchitect 2.0通過其先進的技術，能夠將靜態圖像轉換為5-10秒的視頻，使用戶能夠輕鬆地將照片或設計轉換為引人入勝的視覺體驗。此外，Vchitect 2.0還支持長視頻生成模型的評估，通過VBench平臺，提供全面且持續更新的評估排行榜，支持多種長視頻模型，如Gen-3、Kling、OpenSora等。

Generative Keyframe Interpolation with Forward-Backward Consistency

Generative Keyframe Interpolation With Forward Backward Consistency

該產品是一個圖像到視頻的擴散模型，通過輕量級的微調技術，能夠從一對關鍵幀生成具有連貫運動的連續視頻序列。這種方法特別適用於需要在兩個靜態圖像之間生成平滑過渡動畫的場景，如動畫製作、視頻編輯等。它利用了大規模圖像到視頻擴散模型的強大能力，通過微調使其能夠預測兩個關鍵幀之間的視頻，從而實現前向和後向的一致性。

ComfyUI-CogVideoXWrapper

Comfyui CogVideoXWrapper

ComfyUI-CogVideoXWrapper 是一個基於Python的視頻處理模型，它通過使用T5模型進行視頻內容的生成和轉換。該模型支持從圖像到視頻的轉換工作流程，並在實驗階段展現出有趣的效果。它主要針對需要進行視頻內容創作和編輯的專業用戶，尤其是在視頻生成和轉換方面有特殊需求的用戶。

CamCo

CamCo是一個創新的圖像到視頻生成框架，它能夠生成具有3D一致性的高質量視頻。該框架通過Plücker座標引入相機信息，並提出了一種符合幾何一致性的雙線約束注意力模塊。此外，CamCo在通過運動結構算法估計相機姿態的真實世界視頻上進行了微調，以更好地合成物體運動。

MusePose

MusePose是由騰訊音樂娛樂的Lyra Lab開發的一款圖像到視頻的生成框架，旨在通過姿勢控制信號生成虛擬人物的視頻。它是Muse開源系列的最後一個構建塊，與MuseV和MuseTalk一起，旨在推動社區向生成具有全身運動和交互能力的虛擬人物的願景邁進。MusePose基於擴散模型和姿勢引導，能夠生成參考圖像中人物的舞蹈視頻，並且結果質量超越了當前幾乎所有同一主題的開源模型。

I2VEdit

I2VEdit是一種創新的視頻編輯技術，通過預訓練的圖像到視頻模型，將單一幀的編輯擴展到整個視頻。這項技術能夠適應性地保持源視頻的視覺和運動完整性，並有效處理全局編輯、局部編輯以及適度的形狀變化，這是現有方法所不能實現的。I2VEdit的核心包括兩個主要過程：粗略運動提取和外觀細化，通過粗粒度注意力匹配進行精確調整。此外，還引入了跳過間隔策略，以減輕多個視頻片段自動迴歸生成過程中的質量下降。實驗結果表明，I2VEdit在細粒度視頻編輯方面的優越性能，證明了其能夠產生高質量、時間一致的輸出。

AnimateLCM-SVD-xt

Animatelcm SVD Xt

AnimateLCM-SVD-xt是一種新的圖像到視頻生成模型,可以在很少的步驟內生成高質量、連貫性好的視頻。該模型通過一致性知識蒸餾和立體匹配學習技術,使生成視頻更加平穩連貫,同時大大減少了計算量。關鍵特點包括:1) 4-8步內生成25幀576x1024分辨率視頻;2) 比普通視頻diffusion模型降低12.5倍計算量;3) 生成視頻質量好,無需額外分類器引導。

ai sora tech

AI SORA TECH是一款革命性的內容創作工具，利用先進的視頻生成技術，將文本和圖像轉化為動態視頻，並支持視頻到視頻的創作。它可以根據輸入的文本或圖像生成整個視頻或延長現有視頻的長度，滿足各種視頻製作需求。AI SORA TECH的功能豐富，操作簡便，適用於專業人士和初學者。

Stable Video Diffusion 1.1 Image-to-Video

Stable Video Diffusion 1.1 Image To Video

Stable Video Diffusion (SVD) 1.1 Image-to-Video 是一個擴散模型，通過將靜止圖像作為條件幀，生成相應的視頻。該模型是一個潛在擴散模型，經過訓練，能夠從圖像生成短視頻片段。在分辨率為 1024x576 的情況下，該模型訓練生成 25 幀視頻，其訓練基於相同大小的上下文幀，並從 SVD Image-to-Video [25 frames] 進行了微調。微調時，固定了6FPS和Motion Bucket Id 127的條件，以提高輸出的一致性，而無需調整超參數。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase