生成模型

# 生成模型

LegoGPT

LegoGPT 是第一個通過文本提示生成物理穩定的樂高模型的方法。該技術使用大規模的樂高設計數據集，並通過自迴歸語言模型生成下一個樂高磚塊，同時應用物理約束以保證模型的穩定性。其主要優點包括生成多樣且美觀的設計，支持人工和機器人組裝，並具備自動化生成和紋理上色能力。

Audio-SDS

Audio-SDS 是一個將 Score Distillation Sampling（SDS）概念應用於音頻擴散模型的框架。該技術能夠在不需要專門數據集的情況下，利用大型預訓練模型進行多種音頻任務，如物理引導的衝擊聲合成和基於提示的源分離。其主要優點在於通過一系列迭代優化，使得複雜的音頻生成任務變得更為高效。此技術具有廣泛的應用前景，能夠為未來的音頻生成和處理研究提供堅實基礎。

Liquid

Liquid 是一個自迴歸生成模型，通過將圖像分解為離散代碼並與文本標記共享特徵空間，促進視覺理解和文本生成的無縫集成。此模型的主要優點在於無需外部預訓練的視覺嵌入，減少了對資源的依賴，同時通過規模法則發現了理解與生成任務之間的相互促進效應。

UNO

UNO 是一個基於擴散變換器的多圖像條件生成模型，通過引入漸進式跨模態對齊和通用旋轉位置嵌入，實現高一致性的圖像生成。其主要優點在於增強了對單一或多個主題生成的可控性，適用於各種創意圖像生成任務。

EasyControl

EasyControl 是一個為 Diffusion Transformer（擴散變換器）提供高效靈活控制的框架，旨在解決當前 DiT 生態系統中存在的效率瓶頸和模型適應性不足等問題。其主要優點包括：支持多種條件組合、提高生成靈活性和推理效率。該產品是基於最新研究成果開發的，適合在圖像生成、風格轉換等領域使用。

IMM

Inductive Moment Matching (IMM) 是一種先進的生成模型技術，主要用於高質量圖像生成。該技術通過創新的歸納矩匹配方法，顯著提高了生成圖像的質量和多樣性。其主要優點包括高效性、靈活性以及對複雜數據分佈的強大建模能力。IMM 由 Luma AI 和斯坦福大學的研究團隊開發，旨在推動生成模型領域的發展，為圖像生成、數據增強和創意設計等應用提供強大的技術支持。該項目開源了代碼和預訓練模型，方便研究人員和開發者快速上手和應用。

MIDI

MIDI是一種創新的圖像到3D場景生成技術，它利用多實例擴散模型，能夠從單張圖像中直接生成具有準確空間關係的多個3D實例。該技術的核心在於其多實例注意力機制，能夠有效捕捉物體間的交互和空間一致性，無需複雜的多步驟處理。MIDI在圖像到場景生成領域表現出色，適用於合成數據、真實場景數據以及由文本到圖像擴散模型生成的風格化場景圖像。其主要優點包括高效性、高保真度和強大的泛化能力。

SRM

SRM是一種基於去噪生成模型的空間推理框架，用於處理連續變量集合的推理任務。它通過為每個未觀測變量分配獨立的噪聲水平，逐步推斷出這些變量的連續表示。該技術在處理複雜分佈時表現出色，能夠有效減少生成過程中的幻覺現象。SRM首次證明了去噪網絡可以預測生成順序，從而顯著提高了特定推理任務的準確性。該模型由德國馬普信息研究所開發，旨在推動空間推理和生成模型的研究。

模型訓練與部署

BioEmu

BioEmu 是微軟開發的一種深度學習模型，用於模擬蛋白質的平衡系綜。該技術通過生成式深度學習方法，能夠高效地生成蛋白質的結構樣本，幫助研究人員更好地理解蛋白質的動態行為和結構多樣性。該模型的主要優點在於其可擴展性和高效性，能夠處理複雜的生物分子系統。它適用於生物化學、結構生物學和藥物設計等領域的研究，為科學家提供了一種強大的工具來探索蛋白質的動態特性。

EurusPRM-Stage2

Eurusprm Stage2

EurusPRM-Stage2是一個先進的強化學習模型，通過隱式過程獎勵來優化生成模型的推理過程。該模型利用因果語言模型的對數似然比來計算過程獎勵，從而在不增加額外標註成本的情況下提升模型的推理能力。其主要優點在於能夠在僅使用響應級標籤的情況下，隱式地學習到過程獎勵，從而提高生成模型的準確性和可靠性。該模型在數學問題解答等任務中表現出色，適用於需要複雜推理和決策的場景。

模型訓練與部署

EurusPRM-Stage1

Eurusprm Stage1

EurusPRM-Stage1是PRIME-RL項目的一部分，旨在通過隱式過程獎勵來增強生成模型的推理能力。該模型利用隱式過程獎勵機制，無需額外標註過程標籤，即可在推理過程中獲得過程獎勵。其主要優點是能夠有效地提升生成模型在複雜任務中的表現，同時降低了標註成本。該模型適用於需要複雜推理和生成能力的場景，如數學問題解答、自然語言生成等。

FlexRAG

FlexRAG是一個用於檢索增強生成（RAG）任務的靈活且高性能的框架。它支持多模態數據、無縫配置管理和開箱即用的性能，適用於研究和原型開發。該框架使用Python編寫，具有輕量級和高性能的特點，能夠顯著提高RAG工作流的速度和減少延遲。其主要優點包括支持多種數據類型、統一的配置管理以及易於集成和擴展。

開發與工具

Generative Omnimatte

Generative Omnimatte

Generative Omnimatte是一種先進的視頻處理技術，能夠將視頻分解為多個RGBA層，每層包含可見對象及其效果，如陰影和反射。這項技術在視頻編輯和特效製作中具有重要意義，能夠提高創作的靈活性和效率。

InstantIR

InstantIR是一種基於擴散模型的盲圖像恢復方法，能夠在測試時處理未知退化問題，提高模型的泛化能力。該技術通過動態調整生成條件，在推理過程中生成參考圖像，從而提供穩健的生成條件。InstantIR的主要優點包括：能夠恢復極端退化的圖像細節，提供逼真的紋理，並且通過文本描述調節生成參考，實現創造性的圖像恢復。該技術由北京大學、InstantX團隊和香港中文大學的研究人員共同開發，得到了HuggingFace和fal.ai的贊助支持。

LongRAG

LongRAG是一個基於大型語言模型（LLM）的雙視角、魯棒的檢索增強型生成系統範式，旨在增強對複雜長文本知識的理解和檢索能力。該模型特別適用於長文本問答（LCQA），能夠處理全局信息和事實細節。產品背景信息顯示，LongRAG通過結合檢索和生成技術，提升了對長文本問答任務的性能，特別是在需要多跳推理的場景中。該模型是開源的，可以免費使用，主要面向研究者和開發者。

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一個基於文本到圖像的生成模型，由Stability AI開發，具有改進的圖像質量、排版、複雜提示理解和資源效率。該模型使用了三個固定的預訓練文本編碼器，通過QK-規範化提高訓練穩定性，並在前12個變換層中引入雙注意力塊。它在多分辨率圖像生成、一致性和各種文本到圖像任務的適應性方面表現出色。

sCM

OpenAI 提出的連續時間一致性模型（sCM）是一種生成模型，它在生成高質量樣本時，只需要兩個採樣步驟，與領先的擴散模型相比，具有顯著的速度優勢。sCM 通過簡化理論公式，穩定並擴展了大規模數據集的訓練，使得在保持樣本質量的同時，大幅減少了採樣時間，為即時應用提供了可能性。

模型訓練與部署

stable-diffusion-3.5-large-turbo

Stable Diffusion 3.5 Large Turbo

Stable Diffusion 3.5 Large Turbo 是一個基於文本生成圖像的多模態擴散變換器（MMDiT）模型，採用了對抗性擴散蒸餾（ADD）技術，提高了圖像質量、排版、複雜提示理解和資源效率，特別注重減少推理步驟。該模型在生成圖像方面表現出色，能夠理解和生成複雜的文本提示，適用於多種圖像生成場景。它在Hugging Face平臺上發佈，遵循Stability Community License，適合研究、非商業用途以及年收入少於100萬美元的組織或個人免費使用。

FluxMusic

FluxMusic是一個基於PyTorch實現的文本到音樂生成模型，它通過擴散式修正流變換器探索了一種簡單的文本到音樂生成方法。這個模型可以生成根據文本提示的音樂片段，具有創新性和高度的技術複雜性。它代表了音樂生成領域的前沿技術，為音樂創作提供了新的可能。

ViPer

ViPer是一種個性化生成模型，可以根據用戶的視覺偏好生成符合個人口味的圖像。該模型使用了穩定擴散XL技術，可以在保持圖像質量的同時實現個性化生成。ViPer的主要優點是可以為用戶提供個性化的圖像生成服務，滿足用戶的個性化需求。

MaskVAT

MaskVAT是一種視頻到音頻(V2A)生成模型，它利用視頻的視覺特徵來生成與場景匹配的逼真聲音。該模型特別強調聲音的起始點與視覺動作的同步性，以避免不自然的同步問題。MaskVAT結合了全頻帶高質量通用音頻編解碼器和序列到序列的遮蔽生成模型，能夠在保證高音頻質量、語義匹配和時間同步性的同時，達到與非編解碼器生成音頻模型相媲美的競爭力。

SV4D

Stable Video 4D (SV4D) 是基於 Stable Video Diffusion (SVD) 和 Stable Video 3D (SV3D) 的生成模型，它接受單一視角的視頻並生成該對象的多個新視角視頻（4D 圖像矩陣）。該模型訓練生成 40 幀（5 個視頻幀 x 8 個攝像機視角）在 576x576 分辨率下，給定 5 個相同大小的參考幀。通過運行 SV3D 生成軌道視頻，然後使用軌道視頻作為 SV4D 的參考視圖，並輸入視頻作為參考幀，進行 4D 採樣。該模型還通過使用生成的第一幀作為錨點，然後密集採樣（插值）剩餘幀來生成更長的新視角視頻。

AuraFlow

AuraFlow v0.1是一個完全開源的、基於流的文本到圖像生成模型，它在GenEval上達到了最先進的結果。目前模型處於beta階段，正在不斷改進中，社區反饋至關重要。感謝兩位工程師@cloneofsimo和@isidentical將此項目變為現實，以及為該項目奠定基礎的研究人員。

GaussianCube

GaussianCube是一種創新的3D輻射表示方法，它通過結構化和顯式的表示方式，極大地促進了三維生成建模的發展。該技術通過使用一種新穎的密度約束高斯擬合算法和最優傳輸方法，將高斯函數重新排列到預定義的體素網格中，從而實現了高精度的擬合。與傳統的隱式特徵解碼器或空間無結構的輻射表示相比，GaussianCube具有更少的參數和更高的質量，使得3D生成建模變得更加容易。

PROTEUS

PROTEUS是Apparate Labs推出的一款下一代基礎模型，用於即時表情生成人類。它採用先進的transformer架構的潛在擴散模型，創新的潛在空間設計實現了即時效率，並能通過進一步的架構和算法改進，達到每秒100幀以上視頻流。PROTEUS旨在提供一種通過語音控制的視覺體現，為人工對話實體提供直觀的接口，並且與多種大型語言模型兼容，可定製用於多種不同應用。

Cookbooks

Cookbooks是Cohere提供的一個在線文檔平臺，旨在幫助開發者和用戶瞭解如何利用Cohere的生成AI平臺構建各種應用。它包含了多種使用案例的指南，如構建代理、集成開源軟件、語義搜索、雲服務、檢索增強生成(RAG)、摘要生成等。這些指南提供了最佳實踐，幫助用戶最大限度地利用Cohere的模型，並且所有內容都已設置好，準備就緒，供用戶開始測試。

PCM

Phased Consistency Model（PCM）是一種新型的生成模型，旨在解決Latent Consistency Model（LCM）在文本條件高分辨率生成中的侷限性。PCM通過創新的策略在訓練和推理階段提高了生成質量，並通過廣泛的實驗驗證了其在不同步驟（1步、2步、4步、8步、16步）下與Stable Diffusion和Stable Diffusion XL基礎模型的結合效果。

Imagen 3 by Google

Imagen 3 By Google

Imagen 3是我們質量最高的文本到圖像模型，能夠生成具有更好細節、更豐富光照和更少干擾性偽影的圖像。Imagen 3通過改進文本理解能力，可以生成多種視覺風格的圖像，並捕捉長文本提示中的小細節。Imagen 3可用於生成快速草圖到高分辨率圖像等不同類型任務，並提供多個優化版本。

Lumina-T2X

Lumina-T2X是一個先進的文本到任意模態生成框架，它能夠將文本描述轉換為生動的圖像、動態視頻、詳細的多視圖3D圖像和合成語音。該框架採用基於流的大型擴散變換器（Flag-DiT），支持高達7億參數，並能擴展序列長度至128,000個標記。Lumina-T2X集成了圖像、視頻、3D對象的多視圖和語音頻譜圖到一個時空潛在標記空間中，可以生成任何分辨率、寬高比和時長的輸出。

UniFL

UniFL是一個項目，旨在提升生成模型質量和加速推理速度。它通過感知反饋學習、解耦反饋學習和對抗性反饋學習三個關鍵組件，有效解決了當前擴散模型存在的圖像質量、美學吸引力和推理速度等問題。經過實驗驗證和用戶研究，UniFL在多個擴散模型上展現出顯著的性能提升和強大的泛化能力。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase