Unified IO 2 : 統一的多模態生成模型

Unified IO 2

AI模型開發平臺 #多模態 #Transformer #圖像 #文本 #音頻 #動作 #圖像生成普通產品商用

簡介 :

Unified-IO 2是一個統一的多模態生成模型,能夠理解和生成圖像、文本、音頻和動作。它使用單個編碼器-解碼器Transformer模型,將不同模式(圖像、文本、音頻、動作等)的輸入和輸出都表示為一個共享的語義空間進行處理。該模型從頭開始在大規模的多模態預訓練語料上進行訓練,使用了多模態的去噪目標進行優化。為了學會廣泛的技能,該模型還在120個現有數據集上進行微調,這些數據集包含提示和數據增強。Unified-IO 2在GRIT基準測試中達到了最先進的性能,在30多個基準測試中都取得了強勁的結果,包括圖像生成和理解、文本理解、視頻和音頻理解以及機器人操作。

需求人群 :

通用人工智能

總訪問量： 442

佔比最多地區： US(69.88%)

本站瀏覽量： 69.3K

使用場景

根據提示描述並生成圖像

理解視頻中的內容

根據音頻生成文本描述

產品特色

圖像 caption

執行自由形式指令