Understanding Video Transformers
U
Understanding Video Transformers
簡介 :
這篇論文研究了視頻Transformer表示的概念解釋問題。具體而言,我們試圖解釋基於高級時空概念的視頻Transformer的決策過程,這些概念是自動發現的。以往關於基於概念的可解釋性的研究僅集中在圖像級任務上。相比之下,視頻模型處理了額外的時間維度,增加了複雜性,並在識別隨時間變化的動態概念方面提出了挑戰。在這項工作中,我們通過引入第一個視頻Transformer概念發現(VTCD)算法系統地解決了這些挑戰。為此,我們提出了一種有效的無監督視頻Transformer表示單元(概念)識別方法,並對它們在模型輸出中的重要性進行排名。所得的概念具有很高的可解釋性,揭示了非結構化視頻模型中的時空推理機制和以對象為中心的表示。通過在多樣的監督和自監督表示上聯合進行這種分析,我們發現其中一些機制在視頻Transformer中是普遍的。最後,我們證明VTCD可以用於改善精細任務的模型性能。
需求人群 :
用於解釋視頻Transformer的決策過程,並改善模型性能
總訪問量: 29.7M
佔比最多地區: US(17.94%)
本站瀏覽量 : 49.7K
使用場景
解釋視頻Transformer決策過程
改善視頻模型的性能
發現視頻Transformer中的普遍機制
產品特色
無監督視頻Transformer概念發現
排名視頻Transformer概念的重要性
揭示視頻Transformer中的時空推理機制和對象表示
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase