Fuyu 8B : 小型多模態模型，支持圖像和文本生成

Fuyu 8B

簡介 :

Fuyu-8B是由Adept AI訓練的多模態文本和圖像轉換模型。它具有簡化的架構和訓練過程，易於理解、擴展和部署。它專為數字代理設計，可以支持任意圖像分辨率，回答關於圖表和圖形的問題，回答基於UI的問題，並對屏幕圖像進行細粒度定位。它的響應速度很快，可以在100毫秒內處理大型圖像。儘管針對我們的用例進行了優化，但它在標準圖像理解基準測試中表現良好，如視覺問答和自然圖像字幕。請注意，我們發佈的模型是一個基礎模型，我們希望您根據具體的用例進行微調，例如冗長的字幕或多模態聊天。在我們的經驗中，該模型對於少樣本學習和各種用例的微調都表現良好。

需求人群 :

適用於圖像和文本生成的場景

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 118.1K

使用場景

生成coco風格的字幕

回答關於圖像的問題

回答關於圖表的問題

產品特色

支持圖像和文本生成

支持任意圖像分辨率