Florence 2 : 一種統一的視覺任務基礎模型。

Florence 2

AI圖像生成 AI模型 #視覺模型 #多任務學習 #自動化註釋 #序列到序列優質新品開源

簡介 :

Florence-2是一個新型的視覺基礎模型，它通過統一的、基於提示的表示方式，能夠處理多種計算機視覺和視覺-語言任務。它設計為接受文本提示作為任務指令，並以文本形式生成期望的結果，無論是圖像描述、目標檢測、定位還是分割。這種多任務學習設置需要大規模、高質量的註釋數據。為此，我們共同開發了FLD-5B，它包含了54億個綜合視覺註釋，涵蓋1.26億張圖像，使用了自動化圖像註釋和模型細化的迭代策略。我們採用了序列到序列的結構來訓練Florence-2，以執行多樣化和全面的視覺任務。廣泛的評估表明，Florence-2是一個強大的視覺基礎模型競爭者，具有前所未有的零樣本和微調能力。

需求人群 :

Florence-2模型適合需要處理複雜視覺任務的研究者和開發者，特別是在圖像描述、目標檢測、視覺定位和分割等領域。它的多任務學習能力和強大的數據處理能力，使其成為推動計算機視覺和視覺-語言研究的重要工具。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 56.9K

使用場景

在圖像描述任務中，Florence-2能夠根據輸入的圖像生成準確的描述文本。

在目標檢測任務中，Florence-2可以識別圖像中的多個對象，並以文本形式報告它們的位置。

在視覺定位任務中，Florence-2能夠將文本描述與圖像中的特定區域關聯起來。

產品特色

文本提示作為任務指令的輸入方式。

生成文本形式的期望結果，適用於多種視覺任務。