中文精選

Chatimg
ChatIMG 是一款利用 ChatGPT 4o 技術的 AI 圖像生成平臺,專注於將照片或想法轉換為宮崎駿風格的藝術作品。它採用先進的擴散模型,支持超高分辨率圖像生成,適合專業藝術創作。產品的目標是使任何人都能創造出高質量的視覺內容,滿足個人及商業需求,定價策略靈活,適合不同用戶。
圖片生成
125.0K
優質新品

Cogview4
CogView4 是由清華大學開發的先進文本到圖像生成模型,基於擴散模型技術,能夠根據文本描述生成高質量圖像。它支持中文和英文輸入,並且可以生成高分辨率圖像。CogView4 的主要優點是其強大的多語言支持和高質量的圖像生成能力,適合需要高效生成圖像的用戶。該模型在 ECCV 2024 上展示,具有重要的研究和應用價值。
圖片生成
82.8K

Flashvideo
FlashVideo 是一款專注於高效高分辨率視頻生成的深度學習模型。它通過分階段的生成策略,首先生成低分辨率視頻,再通過增強模型提升至高分辨率,從而在保證細節的同時顯著降低計算成本。該技術在視頻生成領域具有重要意義,尤其是在需要高質量視覺內容的場景中。FlashVideo 適用於多種應用場景,包括內容創作、廣告製作和視頻編輯等。其開源性質使得研究人員和開發者可以靈活地進行定製和擴展。
視頻生成
52.2K

Prompt Depth Anything
Prompt Depth Anything是一種用於高分辨率和高精度度量深度估計的方法。該方法通過使用提示(prompting)技術,激發深度基礎模型的潛力,利用iPhone LiDAR作為提示,引導模型產生高達4K分辨率的精確度量深度。此外,該方法還引入了可擴展的數據管道進行訓練,併發布了更詳細的ScanNet++數據集深度註釋。該技術的主要優點包括高分辨率、高精度的深度估計,以及對下游應用如3D重建和通用機器人抓取的益處。
3D建模
66.5K

Sana 600M 512px
Sana是一個由NVIDIA開發的文本到圖像的生成框架,能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度和強大的文本圖像對齊能力,可以在筆記本電腦GPU上部署,代表了圖像生成技術的一個重要進步。該模型基於線性擴散變換器,使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器,能夠根據文本提示生成和修改圖像。Sana的開源代碼可在GitHub上找到,其研究和應用前景廣闊,尤其在藝術創作、教育工具和模型研究等方面。
圖片生成
66.8K

Sana 600M 1024px
Sana是一個由NVIDIA開發的文本到圖像生成框架,能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度和強大的文本圖像對齊能力,使得在筆記本電腦GPU上也能部署。它是一個基於線性擴散變換器(text-to-image generative model)的模型,擁有1648M參數,專門用於生成1024px基礎的多尺度高寬圖像。Sana模型的主要優點包括高分辨率圖像生成、快速的合成速度以及強大的文本圖像對齊能力。Sana模型的背景信息顯示,它是基於開源代碼開發的,可以在GitHub上找到源代碼,同時它也遵循特定的許可證(CC BY-NC-SA 4.0 License)。
圖片生成
50.0K

Sana 1600M 1024px MultiLing
Sana是一個由NVIDIA開發的文本到圖像的框架,能夠高效生成高達4096×4096分辨率的圖像。該模型以驚人的速度合成高分辨率、高質量的圖像,並保持強大的文本-圖像對齊能力,可部署在筆記本電腦GPU上。Sana模型基於線性擴散變換器,使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器,支持Emoji、中文和英文以及混合提示。
圖片生成
51.3K

Sana 1600M 512px MultiLing
Sana是一個由NVIDIA開發的文本到圖像的框架,能夠高效生成高達4096×4096分辨率的圖像。Sana能夠以極快的速度合成高分辨率、高質量的圖像,並且具有強烈的文本-圖像對齊能力,可以在筆記本電腦GPU上部署。該模型基於線性擴散變換器,使用固定預訓練的文本編碼器和空間壓縮的潛在特徵編碼器,支持英文、中文和表情符號混合提示。Sana的主要優點包括高效率、高分辨率圖像生成能力以及多語言支持。
圖片生成
43.9K

Sana 1600M 1024px
Sana是一個由NVIDIA開發的文本到圖像生成框架,能夠高效生成高達4096×4096分辨率的高清晰度、高文本-圖像一致性的圖像,並且速度極快,可以在筆記本電腦GPU上部署。Sana模型基於線性擴散變換器,使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器。該技術的重要性在於其能夠快速生成高質量的圖像,對於藝術創作、設計和其他創意領域具有革命性的影響。Sana模型遵循CC BY-NC-SA 4.0許可協議,源代碼可在GitHub上找到。
圖片生成
48.9K

Sana 1600M 512px
Sana是一個由NVIDIA開發的文本到圖像的生成框架,能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度、強大的文本圖像對齊能力以及可在筆記本電腦GPU上部署的特性而著稱。該模型基於線性擴散變換器,使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器,代表了文本到圖像生成技術的最新進展。Sana的主要優點包括高分辨率圖像生成、快速合成、筆記本電腦GPU上的可部署性,以及開源的代碼,使其在研究和實際應用中具有重要價值。
圖片生成
48.9K

Sana 1.6B
Sana-1.6B是一個高效的高分辨率圖像合成模型,它基於線性擴散變換器技術,能夠生成高質量的圖像。該模型由NVIDIA實驗室開發,使用DC-AE技術,具有32倍的潛在空間,能夠在多個GPU上運行,提供強大的圖像生成能力。Sana-1.6B以其高效的圖像合成能力和高質量的輸出結果而聞名,是圖像合成領域的重要技術。
圖片生成
49.4K

Sana
Sana是一個文本到圖像的框架,能夠高效生成高達4096×4096分辨率的圖像。它以極快的速度合成高分辨率、高質量的圖像,並保持強大的文本-圖像對齊,可以部署在筆記本電腦GPU上。Sana的核心設計包括深度壓縮自編碼器、線性擴散變換器(DiT)、僅解碼器的小型語言模型作為文本編碼器,以及高效的訓練和採樣策略。Sana-0.6B與現代大型擴散模型相比,體積小20倍,測量吞吐量快100倍以上。此外,Sana-0.6B可以部署在16GB筆記本電腦GPU上,生成1024×1024分辨率圖像的時間少於1秒。Sana使得低成本的內容創作成為可能。
圖片生成
55.2K

Image Maker Ai
Image Maker Ai 是一個基於人工智能的圖像生成平臺,利用先進的變換器模型和BlackForestLabs的最新AI研究,提供從高端專業項目到快速個人使用的多種需求。該技術擁有12億參數和多個模型變體,包括FLUX.1 [Pro]、[Dev]和[Schnell],優化了提示遵循、細節和輸出多樣性。Image Maker Ai 允許用戶輸入文本提示,選擇風格,並由AI生成高分辨率、細節豐富、逼真的圖像,適合各種應用,從個人項目到專業用途。所有由Flux生成的圖像都是免版稅的,可以用於個人或商業目的,無需擔心版權問題。
圖片生成
47.2K

Cogvideox1.5 5B SAT
CogVideoX1.5-5B-SAT是由清華大學知識工程與數據挖掘團隊開發的開源視頻生成模型,是CogVideoX模型的升級版。該模型支持生成10秒視頻,並支持更高分辨率的視頻生成。模型包含Transformer、VAE和Text Encoder等模塊,能夠根據文本描述生成視頻內容。CogVideoX1.5-5B-SAT模型以其強大的視頻生成能力和高分辨率支持,為視頻內容創作者提供了一個強大的工具,尤其在教育、娛樂和商業領域有著廣泛的應用前景。
視頻生成
73.7K

FLUX 1.1 Pro Ultra
FLUX1.1 [pro] 是一款高分辨率圖像生成模型,支持高達4MP的圖像分辨率,同時保持每樣本僅10秒的生成時間。FLUX1.1 [pro] – ultra模式能夠在不犧牲速度的情況下,生成四倍於標準分辨率的圖像,性能基準測試顯示其生成速度超過同類高分辨率模型2.5倍以上。此外,FLUX1.1 [pro] – raw模式為追求真實感的創作者提供了更自然、更少合成感的圖像生成效果,顯著提高了人物多樣性和自然攝影的真實性。該模型以每張圖片0.06美元的競爭力價格提供。
圖片生成
111.5K

Mochi 1 AI
Mochi 1是一個由Genmo開發的前沿開源AI視頻生成器,它允許創作者使用文本和圖像提示生成高質量、逼真的視頻。Mochi 1以其卓越的提示遵循能力和流暢的運動效果,使AI視頻生成對每個人都變得容易。它旨在與行業其他模型競爭,為創作者提供更多的控制和更好的視覺成果。
視頻生成
54.4K

IC Light V2
IC-Light V2是一系列基於Flux的IC-Light模型,採用16ch VAE和原生高分辨率技術。該模型在細節保留、風格化圖像處理等方面相較於前代有顯著提升。它特別適合需要在保持圖像細節的同時進行風格化處理的應用場景。目前,該模型以非商業性質發佈,主要面向個人用戶和研究者。
圖片生成
62.4K

Hallo2
Hallo2是一種基於潛在擴散生成模型的人像圖像動畫技術,通過音頻驅動生成高分辨率、長時的視頻。它通過引入多項設計改進,擴展了Hallo的功能,包括生成長時視頻、4K分辨率視頻,並增加了通過文本提示增強表情控制的能力。Hallo2的主要優點包括高分辨率輸出、長時間的穩定性以及通過文本提示增強的控制性,這使得它在生成豐富多樣的肖像動畫內容方面具有顯著優勢。
AI圖像生成
72.3K

Meissonic
Meissonic是一個非自迴歸的掩碼圖像建模文本到圖像合成模型,能夠生成高分辨率的圖像。它被設計為可以在消費級顯卡上運行。這項技術的重要性在於其能夠利用現有的硬件資源,為用戶帶來高質量的圖像生成體驗,同時保持了較高的運行效率。Meissonic的背景信息包括其在arXiv上發表的論文,以及在Hugging Face上的模型和代碼。
AI圖像生成
49.7K
優質新品

Photo4you
photo4you是一個基於人工智能技術的在線證件照製作網站,用戶無需下載或安裝任何軟件即可輕鬆創建證件照片。該網站支持多種標準尺寸,適用於護照、簽證、駕照等官方文件。它通過智能背景移除功能,自動去除照片背景,確保證件照具有清晰、專業的外觀。用戶可以立即下載製作好的證件照,節省了時間和麻煩。photo4you提供高分辨率的輸出,適合打印或數字提交。
AI圖像編輯
60.2K

Cogview3
CogView3是一個基於級聯擴散的文本到圖像生成系統,使用中繼擴散框架。該系統通過將高分辨率圖像生成過程分解為多個階段,並通過中繼超分辨率過程,在低分辨率生成結果上添加高斯噪聲,從而開始從這些帶噪聲的圖像進行擴散過程。CogView3在生成圖像方面超越了SDXL,具有更快的生成速度和更高的圖像質量。
AI圖像生成
66.2K

Follow Your Canvas
Follow-Your-Canvas 是一種基於擴散模型的視頻外延技術,它能夠生成高分辨率的視頻內容。該技術通過分佈式處理和空間窗口合併,解決了GPU內存限制問題,同時保持了視頻的空間和時間一致性。它在大規模視頻外延方面表現出色,能夠將視頻分辨率顯著提升,如從512 X 512擴展到1152 X 2048,同時生成高質量和視覺上令人愉悅的結果。
AI視頻生成
50.8K
優質新品

FIFO Diffusion
FIFO-Diffusion是一種基於預訓練擴散模型的新穎推理技術,用於文本條件視頻生成。它能夠無需訓練生成無限長的視頻,通過迭代執行對角去噪,同時處理隊列中一系列連續幀的逐漸增加的噪聲水平;該方法在頭部出隊一個完全去噪的幀,同時在尾部入隊一個新的隨機噪聲幀。此外,引入了潛在分割來減少訓練推理差距,並通過前瞻去噪來利用前向引用的好處。
AI視頻生成
126.4K

Ttplanet SDXL Controlnet Tile Realistic
這是一個基於SDXL的ControlNet Tile模型,使用Hugging Face Diffusers訓練集,適用於Stable Diffusion SDXL ControlNet。它最初是為我自己的逼真模型訓練,用於終極放大過程以提高圖像細節。使用合適的工作流程,它可以為高細節、高分辨率的圖像修復提供良好的結果。由於大多數開源沒有SDXL Tile模型,我決定分享這個模型。該模型支持高分辨率修復、風格遷移和圖像修復等功能,可以為你提供高質量的圖像處理體驗。
AI圖像生成
106.8K

Griffon
Griffon 是第一個具有本地化能力的高分辨率(超過1K)LVLM,可以描述您感興趣的區域中的所有內容。在最新版本中,Griffon 支持視覺語言共指。您可以輸入圖像或一些描述。Griffon 在 REC、目標檢測、目標計數、視覺/短語定位和 REG 方面表現出色。定價:免費試用。
AI圖像檢測識別
52.7K

PIXART
PIXART-Σ是一個直接生成4K分辨率圖像的擴散變換器模型,相較於前身PixArt-α,它提供了更高的圖像保真度和與文本提示更好的對齊。PIXART-Σ的關鍵特性包括高效的訓練過程,它通過結合更高質量的數據,從“較弱”的基線模型進化到“更強”的模型,這一過程被稱為“弱到強訓練”。PIXART-Σ的改進包括使用更高質量的訓練數據和高效的標記壓縮。
AI圖像生成
490.5K

Clarityai
ClarityAI.cc是一款高分辨率圖片放大增強工具,採用最新的AI技術,可增強圖片細節並提供超高分辨率。適用於風景、肖像、插圖、動漫、室內設計等各種場景。提供免費選項。
圖片增強
91.6K

SDXL Lightning
SDXL-Lightning是字節跳動開發的圖像生成模型,能夠在一步或少步驟內生成高達1024像素分辨率的高質量圖像。該模型通過漸進式對抗式蒸餾,顯著提升了圖像生成速度,使其可應用於需要快速響應的場景。模型已開源,支持兼容LoRA模塊和其他控制插件,可廣泛用於文本到圖像生成任務。
AI圖像生成
613.0K

LGM
LGM是一個用於從文本提示或單視圖圖像生成高分辨率3D模型的新框架。它的關鍵見解是:(1) 3D表示:我們提出了多視圖高斯特徵作為一個高效 yet 強大的表示,然後可以將其融合在一起進行不同iable 渲染。(2) 3D主幹:我們呈現了一個不對稱U-Net作為一個高通量的主幹操作多視圖圖像,這可以通過利用多視圖擴散模型從文本或單視圖圖像輸入中產生。大量的實驗表明了我們方法的高保真度和效率。值得注意的是,我們在將訓練分辨率提高到512的同時保持生成3D對象的快速速度,從而實現了高分辨率的3D內容生成。
3D建模
76.2K

Demofusion
DemoFusion 是一款無需高額費用的高分辨率圖像生成解決方案。通過使用漸進式升採樣、跳躍殘差和擴張採樣等機制,DemoFusion 擴展了開源生成人工智能模型,實現了更高分辨率的圖像生成。它具有簡單易用的特點,無需調整參數和大量內存,適用於廣泛的用戶群體。DemoFusion 可以與其他基於潛在擴散模型的應用程序無縫集成,實現可控的高分辨率圖像生成。
AI圖像生成
94.9K
- 1
- 2
精選AI產品推薦
中文精選

騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
80.6K
國外精選

Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
63.8K

Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.1K

Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.3K

Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M

Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
137.7K
國外精選

Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M