Vitmatte : 基於預訓練的純視覺變換器提升圖像摳圖

Vitmatte

AI圖像編輯 AI圖像生成 #圖像摳圖 #視覺變換器 #預訓練模型 #細節捕獲普通產品開源

簡介 :

ViTMatte是一個基於預訓練純視覺變換器（Plain Vision Transformers, ViTs）的圖像摳圖系統。它利用混合注意力機制和卷積頸部來優化性能與計算之間的平衡，並引入了細節捕獲模塊以補充摳圖所需的細節信息。ViTMatte是首個通過簡潔的適配釋放ViT在圖像摳圖領域潛力的工作，繼承了ViT在預訓練策略、簡潔的架構設計和靈活的推理策略等方面的優勢。在Composition-1k和Distinctions-646這兩個最常用的圖像摳圖基準測試中，ViTMatte達到了最先進的性能，並以較大優勢超越了先前的工作。

需求人群 :

ViTMatte的目標受眾主要是計算機視覺領域的研究人員和開發者，特別是那些對圖像摳圖技術有需求的用戶。它適合需要高效、精確摳圖解決方案的專業人士，如圖像編輯、影視後期製作、增強現實等領域的專家。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 55.2K

使用場景

在電影製作中，使用ViTMatte快速摳出角色，以便進行背景替換或特效添加。

在電子商務網站上，自動摳圖用於商品圖片的展示，提升用戶視覺體驗。

在增強現實應用中，利用ViTMatte對用戶拍攝的圖片進行即時摳圖，實現虛擬對象與現實世界的融合。

產品特色

混合注意力機制與卷積頸部的結合，優化性能與計算平衡

細節捕獲模塊，通過簡單輕量級卷積補充細節信息