Understanding Video Transformers
U
Understanding Video Transformers
简介 :
这篇论文研究了视频Transformer表示的概念解释问题。具体而言,我们试图解释基于高级时空概念的视频Transformer的决策过程,这些概念是自动发现的。以往关于基于概念的可解释性的研究仅集中在图像级任务上。相比之下,视频模型处理了额外的时间维度,增加了复杂性,并在识别随时间变化的动态概念方面提出了挑战。在这项工作中,我们通过引入第一个视频Transformer概念发现(VTCD)算法系统地解决了这些挑战。为此,我们提出了一种有效的无监督视频Transformer表示单元(概念)识别方法,并对它们在模型输出中的重要性进行排名。所得的概念具有很高的可解释性,揭示了非结构化视频模型中的时空推理机制和以对象为中心的表示。通过在多样的监督和自监督表示上联合进行这种分析,我们发现其中一些机制在视频Transformer中是普遍的。最后,我们证明VTCD可以用于改善精细任务的模型性能。
需求人群 :
用于解释视频Transformer的决策过程,并改善模型性能
总访问量: 29.7M
占比最多地区: US(17.94%)
本站浏览量 : 52.4K
使用场景
解释视频Transformer决策过程
改善视频模型的性能
发现视频Transformer中的普遍机制
产品特色
无监督视频Transformer概念发现
排名视频Transformer概念的重要性
揭示视频Transformer中的时空推理机制和对象表示
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase