UNIMO G : 統一圖像生成

UNIMO G

簡介 :

UNIMO-G是一個簡單的多模態條件擴散框架，用於處理交錯的文本和視覺輸入。它包括兩個核心組件：用於編碼多模態提示的多模態大語言模型（MLLM）和用於基於編碼的多模態輸入生成圖像的條件去噪擴散網絡。我們利用兩階段訓練策略來有效地訓練該框架：首先在大規模文本-圖像對上進行預訓練，以開發條件圖像生成能力，然後使用多模態提示進行指導調整，以實現統一圖像生成能力。我們採用了精心設計的數據處理流程，包括語言接地和圖像分割，用於構建多模態提示。UNIMO-G在文本到圖像生成和零樣本主題驅動合成方面表現出色，並且在生成涉及多個圖像實體的複雜多模態提示的高保真圖像方面非常有效。

需求人群 :

UNIMO-G可用於文本到圖像生成、零樣本主題驅動合成等場景。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 112.6K

使用場景

使用UNIMO-G模型生成包含多個圖像實體的複雜多模態提示的高保真圖像。

利用UNIMO-G進行文本到圖像的生成。

UNIMO-G在零樣本主題驅動合成方面表現出色。

產品特色

處理交錯的文本和視覺輸入

生成圖像