高分辨率

# 高分辨率

ChatIMG

ChatIMG 是一款利用 ChatGPT 4o 技術的 AI 圖像生成平臺，專注於將照片或想法轉換為宮崎駿風格的藝術作品。它採用先進的擴散模型，支持超高分辨率圖像生成，適合專業藝術創作。產品的目標是使任何人都能創造出高質量的視覺內容，滿足個人及商業需求，定價策略靈活，適合不同用戶。

CogView4

CogView4 是由清華大學開發的先進文本到圖像生成模型，基於擴散模型技術，能夠根據文本描述生成高質量圖像。它支持中文和英文輸入，並且可以生成高分辨率圖像。CogView4 的主要優點是其強大的多語言支持和高質量的圖像生成能力，適合需要高效生成圖像的用戶。該模型在 ECCV 2024 上展示，具有重要的研究和應用價值。

FlashVideo

FlashVideo 是一款專注於高效高分辨率視頻生成的深度學習模型。它通過分階段的生成策略，首先生成低分辨率視頻，再通過增強模型提升至高分辨率，從而在保證細節的同時顯著降低計算成本。該技術在視頻生成領域具有重要意義，尤其是在需要高質量視覺內容的場景中。FlashVideo 適用於多種應用場景，包括內容創作、廣告製作和視頻編輯等。其開源性質使得研究人員和開發者可以靈活地進行定製和擴展。

Prompt Depth Anything

Prompt Depth Anything

Prompt Depth Anything是一種用於高分辨率和高精度度量深度估計的方法。該方法通過使用提示（prompting）技術，激發深度基礎模型的潛力，利用iPhone LiDAR作為提示，引導模型產生高達4K分辨率的精確度量深度。此外，該方法還引入了可擴展的數據管道進行訓練，併發布了更詳細的ScanNet++數據集深度註釋。該技術的主要優點包括高分辨率、高精度的深度估計，以及對下游應用如3D重建和通用機器人抓取的益處。

Sana_600M_512px

Sana 600M 512px

Sana是一個由NVIDIA開發的文本到圖像的生成框架，能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度和強大的文本圖像對齊能力，可以在筆記本電腦GPU上部署，代表了圖像生成技術的一個重要進步。該模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，能夠根據文本提示生成和修改圖像。Sana的開源代碼可在GitHub上找到，其研究和應用前景廣闊，尤其在藝術創作、教育工具和模型研究等方面。

Sana_600M_1024px

Sana 600M 1024px

Sana是一個由NVIDIA開發的文本到圖像生成框架，能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度和強大的文本圖像對齊能力，使得在筆記本電腦GPU上也能部署。它是一個基於線性擴散變換器(text-to-image generative model)的模型，擁有1648M參數，專門用於生成1024px基礎的多尺度高寬圖像。Sana模型的主要優點包括高分辨率圖像生成、快速的合成速度以及強大的文本圖像對齊能力。Sana模型的背景信息顯示，它是基於開源代碼開發的，可以在GitHub上找到源代碼，同時它也遵循特定的許可證（CC BY-NC-SA 4.0 License）。

Sana_1600M_1024px_MultiLing

Sana 1600M 1024px MultiLing

Sana是一個由NVIDIA開發的文本到圖像的框架，能夠高效生成高達4096×4096分辨率的圖像。該模型以驚人的速度合成高分辨率、高質量的圖像，並保持強大的文本-圖像對齊能力，可部署在筆記本電腦GPU上。Sana模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，支持Emoji、中文和英文以及混合提示。

Sana_1600M_512px_MultiLing

Sana 1600M 512px MultiLing

Sana是一個由NVIDIA開發的文本到圖像的框架，能夠高效生成高達4096×4096分辨率的圖像。Sana能夠以極快的速度合成高分辨率、高質量的圖像，並且具有強烈的文本-圖像對齊能力，可以在筆記本電腦GPU上部署。該模型基於線性擴散變換器，使用固定預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，支持英文、中文和表情符號混合提示。Sana的主要優點包括高效率、高分辨率圖像生成能力以及多語言支持。

Sana_1600M_1024px

Sana 1600M 1024px

Sana是一個由NVIDIA開發的文本到圖像生成框架，能夠高效生成高達4096×4096分辨率的高清晰度、高文本-圖像一致性的圖像，並且速度極快，可以在筆記本電腦GPU上部署。Sana模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器。該技術的重要性在於其能夠快速生成高質量的圖像，對於藝術創作、設計和其他創意領域具有革命性的影響。Sana模型遵循CC BY-NC-SA 4.0許可協議，源代碼可在GitHub上找到。

Sana_1600M_512px

Sana 1600M 512px

Sana是一個由NVIDIA開發的文本到圖像的生成框架，能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度、強大的文本圖像對齊能力以及可在筆記本電腦GPU上部署的特性而著稱。該模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，代表了文本到圖像生成技術的最新進展。Sana的主要優點包括高分辨率圖像生成、快速合成、筆記本電腦GPU上的可部署性，以及開源的代碼，使其在研究和實際應用中具有重要價值。

Sana-1.6B

Sana-1.6B是一個高效的高分辨率圖像合成模型，它基於線性擴散變換器技術，能夠生成高質量的圖像。該模型由NVIDIA實驗室開發，使用DC-AE技術，具有32倍的潛在空間，能夠在多個GPU上運行，提供強大的圖像生成能力。Sana-1.6B以其高效的圖像合成能力和高質量的輸出結果而聞名，是圖像合成領域的重要技術。

Sana

Sana是一個文本到圖像的框架，能夠高效生成高達4096×4096分辨率的圖像。它以極快的速度合成高分辨率、高質量的圖像，並保持強大的文本-圖像對齊，可以部署在筆記本電腦GPU上。Sana的核心設計包括深度壓縮自編碼器、線性擴散變換器（DiT）、僅解碼器的小型語言模型作為文本編碼器，以及高效的訓練和採樣策略。Sana-0.6B與現代大型擴散模型相比，體積小20倍，測量吞吐量快100倍以上。此外，Sana-0.6B可以部署在16GB筆記本電腦GPU上，生成1024×1024分辨率圖像的時間少於1秒。Sana使得低成本的內容創作成為可能。

Image Maker Ai

Image Maker Ai 是一個基於人工智能的圖像生成平臺，利用先進的變換器模型和BlackForestLabs的最新AI研究，提供從高端專業項目到快速個人使用的多種需求。該技術擁有12億參數和多個模型變體，包括FLUX.1 [Pro]、[Dev]和[Schnell]，優化了提示遵循、細節和輸出多樣性。Image Maker Ai 允許用戶輸入文本提示，選擇風格，並由AI生成高分辨率、細節豐富、逼真的圖像，適合各種應用，從個人項目到專業用途。所有由Flux生成的圖像都是免版稅的，可以用於個人或商業目的，無需擔心版權問題。

CogVideoX1.5-5B-SAT

Cogvideox1.5 5B SAT

CogVideoX1.5-5B-SAT是由清華大學知識工程與數據挖掘團隊開發的開源視頻生成模型，是CogVideoX模型的升級版。該模型支持生成10秒視頻，並支持更高分辨率的視頻生成。模型包含Transformer、VAE和Text Encoder等模塊，能夠根據文本描述生成視頻內容。CogVideoX1.5-5B-SAT模型以其強大的視頻生成能力和高分辨率支持，為視頻內容創作者提供了一個強大的工具，尤其在教育、娛樂和商業領域有著廣泛的應用前景。

FLUX 1.1 Pro Ultra

FLUX 1.1 Pro Ultra

FLUX1.1 [pro] 是一款高分辨率圖像生成模型，支持高達4MP的圖像分辨率，同時保持每樣本僅10秒的生成時間。FLUX1.1 [pro] – ultra模式能夠在不犧牲速度的情況下，生成四倍於標準分辨率的圖像，性能基準測試顯示其生成速度超過同類高分辨率模型2.5倍以上。此外，FLUX1.1 [pro] – raw模式為追求真實感的創作者提供了更自然、更少合成感的圖像生成效果，顯著提高了人物多樣性和自然攝影的真實性。該模型以每張圖片0.06美元的競爭力價格提供。

Mochi 1 AI

Mochi 1是一個由Genmo開發的前沿開源AI視頻生成器，它允許創作者使用文本和圖像提示生成高質量、逼真的視頻。Mochi 1以其卓越的提示遵循能力和流暢的運動效果，使AI視頻生成對每個人都變得容易。它旨在與行業其他模型競爭，為創作者提供更多的控制和更好的視覺成果。

IC-Light V2

IC-Light V2是一系列基於Flux的IC-Light模型，採用16ch VAE和原生高分辨率技術。該模型在細節保留、風格化圖像處理等方面相較於前代有顯著提升。它特別適合需要在保持圖像細節的同時進行風格化處理的應用場景。目前，該模型以非商業性質發佈，主要面向個人用戶和研究者。

Hallo2

Hallo2是一種基於潛在擴散生成模型的人像圖像動畫技術，通過音頻驅動生成高分辨率、長時的視頻。它通過引入多項設計改進，擴展了Hallo的功能，包括生成長時視頻、4K分辨率視頻，並增加了通過文本提示增強表情控制的能力。Hallo2的主要優點包括高分辨率輸出、長時間的穩定性以及通過文本提示增強的控制性，這使得它在生成豐富多樣的肖像動畫內容方面具有顯著優勢。

Meissonic

Meissonic是一個非自迴歸的掩碼圖像建模文本到圖像合成模型，能夠生成高分辨率的圖像。它被設計為可以在消費級顯卡上運行。這項技術的重要性在於其能夠利用現有的硬件資源，為用戶帶來高質量的圖像生成體驗，同時保持了較高的運行效率。Meissonic的背景信息包括其在arXiv上發表的論文，以及在Hugging Face上的模型和代碼。

photo4you

photo4you是一個基於人工智能技術的在線證件照製作網站，用戶無需下載或安裝任何軟件即可輕鬆創建證件照片。該網站支持多種標準尺寸，適用於護照、簽證、駕照等官方文件。它通過智能背景移除功能，自動去除照片背景，確保證件照具有清晰、專業的外觀。用戶可以立即下載製作好的證件照，節省了時間和麻煩。photo4you提供高分辨率的輸出，適合打印或數字提交。

CogView3

CogView3是一個基於級聯擴散的文本到圖像生成系統，使用中繼擴散框架。該系統通過將高分辨率圖像生成過程分解為多個階段，並通過中繼超分辨率過程，在低分辨率生成結果上添加高斯噪聲，從而開始從這些帶噪聲的圖像進行擴散過程。CogView3在生成圖像方面超越了SDXL，具有更快的生成速度和更高的圖像質量。

Follow-Your-Canvas

Follow Your Canvas

Follow-Your-Canvas 是一種基於擴散模型的視頻外延技術，它能夠生成高分辨率的視頻內容。該技術通過分佈式處理和空間窗口合併，解決了GPU內存限制問題，同時保持了視頻的空間和時間一致性。它在大規模視頻外延方面表現出色，能夠將視頻分辨率顯著提升，如從512 X 512擴展到1152 X 2048，同時生成高質量和視覺上令人愉悅的結果。

FIFO-Diffusion

FIFO-Diffusion是一種基於預訓練擴散模型的新穎推理技術，用於文本條件視頻生成。它能夠無需訓練生成無限長的視頻，通過迭代執行對角去噪，同時處理隊列中一系列連續幀的逐漸增加的噪聲水平；該方法在頭部出隊一個完全去噪的幀，同時在尾部入隊一個新的隨機噪聲幀。此外，引入了潛在分割來減少訓練推理差距，並通過前瞻去噪來利用前向引用的好處。

TTPLanet_SDXL_Controlnet_Tile_Realistic

Ttplanet SDXL Controlnet Tile Realistic

這是一個基於SDXL的ControlNet Tile模型,使用Hugging Face Diffusers訓練集,適用於Stable Diffusion SDXL ControlNet。它最初是為我自己的逼真模型訓練,用於終極放大過程以提高圖像細節。使用合適的工作流程,它可以為高細節、高分辨率的圖像修復提供良好的結果。由於大多數開源沒有SDXL Tile模型,我決定分享這個模型。該模型支持高分辨率修復、風格遷移和圖像修復等功能,可以為你提供高質量的圖像處理體驗。

Griffon

Griffon 是第一個具有本地化能力的高分辨率（超過1K）LVLM，可以描述您感興趣的區域中的所有內容。在最新版本中，Griffon 支持視覺語言共指。您可以輸入圖像或一些描述。Griffon 在 REC、目標檢測、目標計數、視覺/短語定位和 REG 方面表現出色。定價：免費試用。

AI圖像檢測識別

PIXART

PIXART-Σ是一個直接生成4K分辨率圖像的擴散變換器模型，相較於前身PixArt-α，它提供了更高的圖像保真度和與文本提示更好的對齊。PIXART-Σ的關鍵特性包括高效的訓練過程，它通過結合更高質量的數據，從“較弱”的基線模型進化到“更強”的模型，這一過程被稱為“弱到強訓練”。PIXART-Σ的改進包括使用更高質量的訓練數據和高效的標記壓縮。

ClarityAI

ClarityAI.cc是一款高分辨率圖片放大增強工具，採用最新的AI技術，可增強圖片細節並提供超高分辨率。適用於風景、肖像、插圖、動漫、室內設計等各種場景。提供免費選項。

SDXL-Lightning

SDXL-Lightning是字節跳動開發的圖像生成模型,能夠在一步或少步驟內生成高達1024像素分辨率的高質量圖像。該模型通過漸進式對抗式蒸餾,顯著提升了圖像生成速度,使其可應用於需要快速響應的場景。模型已開源,支持兼容LoRA模塊和其他控制插件,可廣泛用於文本到圖像生成任務。

LGM

LGM是一個用於從文本提示或單視圖圖像生成高分辨率3D模型的新框架。它的關鍵見解是:(1) 3D表示:我們提出了多視圖高斯特徵作為一個高效 yet 強大的表示,然後可以將其融合在一起進行不同iable 渲染。(2) 3D主幹:我們呈現了一個不對稱U-Net作為一個高通量的主幹操作多視圖圖像,這可以通過利用多視圖擴散模型從文本或單視圖圖像輸入中產生。大量的實驗表明了我們方法的高保真度和效率。值得注意的是,我們在將訓練分辨率提高到512的同時保持生成3D對象的快速速度,從而實現了高分辨率的3D內容生成。

DemoFusion

DemoFusion 是一款無需高額費用的高分辨率圖像生成解決方案。通過使用漸進式升採樣、跳躍殘差和擴張採樣等機制，DemoFusion 擴展了開源生成人工智能模型，實現了更高分辨率的圖像生成。它具有簡單易用的特點，無需調整參數和大量內存，適用於廣泛的用戶群體。DemoFusion 可以與其他基於潛在擴散模型的應用程序無縫集成，實現可控的高分辨率圖像生成。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase