Cogview : 基於Transformer的通用領域文本到圖像生成

Cogview

AI圖像生成 AI模型 #Transformer #文本到圖像 #生成模型普通產品開源

簡介 :

CogView是一個用於通用領域文本到圖像生成的預訓練Transformer模型。該模型包含410億參數,能夠生成高質量、多樣化的圖像。模型的訓練思路採用抽象到具體的方式,先 pretrain 獲得通用知識,然後 finetune 在特定域生成圖像,能顯著提升生成質量。值得一提的是,論文還提出了兩種幫助大模型穩定訓練的技巧:PB-relax 和 Sandwich-LN。

需求人群 :

["文本描述到圖像生成","圖像超分辨率","語義理解"]

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 64.6K

使用場景

一個胖乎乎的貓坐在桌子上

一朵粉色的玫瑰花在陽光下盛開

藍色的天空中有一群白雲飄過

產品特色

輸入普通語言描述,生成匹配的圖像

支持中英文輸入

支持超分辨率提升生成圖像質量

支持後期篩選生成樣本

流量來源

直接訪問	51.61%	外鏈引薦	33.46%	郵件	0.04%
自然搜索	12.58%	社交媒體	2.19%	展示廣告	0.11%

最新流量情況

月訪問量	4.92m
平均訪問時長	393.01
每次訪問頁數	6.11
跳出率	36.20%

總流量趨勢圖

地理流量分佈情況

月訪問量	4.92m
United States	19.34%
China	13.25%
India	9.32%
Russia	4.28%
Germany	3.63%

地理流量分佈全球圖

同類開源產品

Fastvlm

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。