Google Vision Transformer : 基於 Transformer 的圖像識別模型

Google Vision Transformer

AI圖像檢測識別 AI模型 #人工智能 #圖像識別 #深度學習 #Transformer #預訓練模型普通產品開源

簡介 :

Google Vision Transformer 是一款基於 Transformer 編碼器的圖像識別模型，使用大規模圖像數據進行預訓練，可用於圖像分類等任務。該模型在 ImageNet-21k 數據集上進行了預訓練，並在 ImageNet 數據集上進行了微調，具備良好的圖像特徵提取能力。該模型通過將圖像切分為固定大小的圖像塊，併線性嵌入這些圖像塊來處理圖像數據。同時，模型在輸入序列前添加了位置編碼，以便在 Transformer 編碼器中處理序列數據。用戶可以通過在預訓練的編碼器之上添加線性層進行圖像分類等任務。Google Vision Transformer 的優勢在於其強大的圖像特徵學習能力和廣泛的適用性。該模型免費提供使用。

需求人群 :

適用於圖像分類、目標檢測和圖像分割等場景

總訪問量： 437.9M

佔比最多地區： US(19.34%)

本站瀏覽量： 63.8K

產品特色

基於 Transformer 的圖像特徵提取

支持圖像分類等任務

預訓練模型可用於遷移學習

適用於大規模圖像數據