

Allegro TI2V
簡介 :
Allegro-TI2V是一個文本圖像到視頻生成模型,它能夠根據用戶提供的提示和圖像生成視頻內容。該模型以其開源性、多樣化的內容創作能力、高質量的輸出、小巧高效的模型參數以及支持多種精度和GPU內存優化而受到關注。它代表了當前人工智能技術在視頻生成領域的前沿進展,具有重要的技術價值和商業應用潛力。Allegro-TI2V模型在Hugging Face平臺上提供,遵循Apache 2.0開源協議,用戶可以免費下載和使用。
需求人群 :
目標受眾為視頻內容創作者、特效師、遊戲開發者、研究人員和任何需要生成視頻內容的專業人士。Allegro-TI2V因其強大的視頻生成能力和高效的模型設計,特別適合需要快速生成高質量視頻內容的用戶,無論是用於娛樂、教育還是商業目的。
使用場景
案例一:使用Allegro-TI2V根據文本提示和一張圖片生成一段關於汽車行駛的視頻。
案例二:利用Allegro-TI2V創作一段關於動物在森林中奔跑的動畫視頻。
案例三:結合Allegro-TI2V和EMA-VFI技術,將15FPS的視頻內容插值到30FPS,以提高視頻流暢度。
產品特色
- 開源:模型權重和代碼完全開放給社區,遵循Apache 2.0協議。
- 多樣化內容創作:能夠生成從人物和動物特寫到多樣化動態場景的廣泛內容。
- 文本圖像到視頻生成:支持從用戶提供的提示和圖像生成視頻,包括基於第一幀圖像和提示生成後續視頻內容,以及基於第一幀和最後一幀圖像生成中間視頻內容。
- 高質量輸出:能夠生成720x1280分辨率、15FPS的6秒詳細視頻,可通過EMA-VFI插值到30FPS。
- 小巧高效:包含175M參數的VideoVAE和2.8B參數的VideoDiT模型,支持多種精度(FP32, BF16, FP16),在BF16模式下使用CPU offloading時GPU內存佔用為9.3GB。
- 多精度支持:模型支持FP32, BF16, FP16等多種精度,以適應不同的硬件和性能需求。
- 快速推理:在單GPU上推理時間為20分鐘(H100),或在8xH100上為3分鐘。
使用教程
1. 從GitHub下載Allegro的代碼。
2. 安裝必要的依賴,確保Python版本大於等於3.10,PyTorch版本大於等於2.4,CUDA版本大於等於12.4。
3. 從Hugging Face下載Allegro-TI2V模型權重。
4. 使用提供的命令行工具運行推理,輸入必要的參數,如用戶提示、第一幀圖像路徑等。
5. 如果需要,使用EMA-VFI將生成的視頻從15FPS插值到30FPS以提高視頻質量。
6. 使用imageio等工具保存生成的視頻。
精選AI產品推薦
國外精選

Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M