Understanding Video Transformers : 解释视频Transformer决策过程的概念发现

Understanding Video Transformers

AI学术研究 AI视频编辑 #视频 #可解释性 #Transformer #时空概念普通产品开源

简介 :

这篇论文研究了视频Transformer表示的概念解释问题。具体而言，我们试图解释基于高级时空概念的视频Transformer的决策过程，这些概念是自动发现的。以往关于基于概念的可解释性的研究仅集中在图像级任务上。相比之下，视频模型处理了额外的时间维度，增加了复杂性，并在识别随时间变化的动态概念方面提出了挑战。在这项工作中，我们通过引入第一个视频Transformer概念发现（VTCD）算法系统地解决了这些挑战。为此，我们提出了一种有效的无监督视频Transformer表示单元（概念）识别方法，并对它们在模型输出中的重要性进行排名。所得的概念具有很高的可解释性，揭示了非结构化视频模型中的时空推理机制和以对象为中心的表示。通过在多样的监督和自监督表示上联合进行这种分析，我们发现其中一些机制在视频Transformer中是普遍的。最后，我们证明VTCD可以用于改善精细任务的模型性能。

需求人群 :

用于解释视频Transformer的决策过程，并改善模型性能

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 52.4K

使用场景

解释视频Transformer决策过程

改善视频模型的性能

发现视频Transformer中的普遍机制

产品特色

无监督视频Transformer概念发现

排名视频Transformer概念的重要性