Understanding Video Transformers : 解釋視頻Transformer決策過程的概念發現

Understanding Video Transformers

AI學術研究 AI視頻編輯 #視頻 #可解釋性 #Transformer #時空概念普通產品開源

簡介 :

這篇論文研究了視頻Transformer表示的概念解釋問題。具體而言，我們試圖解釋基於高級時空概念的視頻Transformer的決策過程，這些概念是自動發現的。以往關於基於概念的可解釋性的研究僅集中在圖像級任務上。相比之下，視頻模型處理了額外的時間維度，增加了複雜性，並在識別隨時間變化的動態概念方面提出了挑戰。在這項工作中，我們通過引入第一個視頻Transformer概念發現（VTCD）算法系統地解決了這些挑戰。為此，我們提出了一種有效的無監督視頻Transformer表示單元（概念）識別方法，並對它們在模型輸出中的重要性進行排名。所得的概念具有很高的可解釋性，揭示了非結構化視頻模型中的時空推理機制和以對象為中心的表示。通過在多樣的監督和自監督表示上聯合進行這種分析，我們發現其中一些機制在視頻Transformer中是普遍的。最後，我們證明VTCD可以用於改善精細任務的模型性能。

需求人群 :

用於解釋視頻Transformer的決策過程，並改善模型性能

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 49.7K

使用場景

解釋視頻Transformer決策過程

改善視頻模型的性能

發現視頻Transformer中的普遍機制

產品特色

無監督視頻Transformer概念發現

排名視頻Transformer概念的重要性