高分论文! 高效时空表征学习的统一Transformer--UNIFormer
-
高分论文! 高效时空表征学习的统一Transformer–UNIFormer
UniFormer: Unified Transformer for Efficient Spatial-Temporal Representation Learning
论文地址:https://arxiv.org/pdf/2201.04676.pdf
代码地址:https://github.com/Sense-X/UniFormer
摘要 引出主题 由于视频具有大量的局部冗余和复杂的全局依赖关系,因此从视频中学习丰富的、多尺度的时空语义是一项具有挑战性的任务 现有问题 最近的研究主要是由三维卷积神经网络和Vision Transformer驱动的。虽然三维卷积可以有效地聚集局部上下文来抑制来自小三维邻域的局部冗余,但由于感受域有限,它缺乏捕获全局依赖的能力。另外,vision Transformer通过自注意机制可以有效地捕获长时间依赖,但由于各层tokens之间存在盲目相似性比较,限制了减少局部冗余 本文思路 提出了一种新型的统一Transformer(UniFormer),它以一种简洁的形式,将三维卷积和时空自注意的优点集成在一起,并在计算和精度之间取得了较好的平衡。与传统的Transformer不同的是,关系聚合器通过在浅层和深层中分别局部和全局tokens相关性来处理时空冗余和依赖关系 Method
由上图可知,UniFormer模型其中的特色组件是:动态位置嵌入(DPE)、多头关系聚合器(MHRA)和前馈网络(FFN)
MHRA
首先介绍多头关系聚合器
设计了一种替代的关系聚合器(RA),它可以将三维卷积和时空自注意灵活地统一在一个简洁的Transformer中,分别解决了浅层和深层的视频冗余和依赖问题。具体来说,MHRA通过多头融合进行tokens关系学习:
- 输入张量为X∈RC×T×H×W\mathbf{X} \in \mathbb{R}^{C \times T \times H \times W}X∈RC×T×H×W,reshape为X∈RL×C\mathbf{X} \in \mathbb{R}^{L \times C}X∈RL×C,L=T×H×WL=T \times H \times WL=T×H×W
- 通过线性转换,可以将X\mathbf{X}X转换为上下文信息Vn(X)∈RL×CN\mathrm{V}_{n}(\mathbf{X}) \in \mathbb{R}^{L \times \frac{C}{N}}Vn(X)∈RL×NC,n表示第几个head
- 然后关系聚合器RA通过token affinity An∈RL×LA_{n} \in \mathbb{R}^{L \times L}An∈RL×L来融合上下文信息得到Rn(X)∈RL×CNR_{n} (\mathbf{X}) \in \mathbb{R}^{L \times \frac{C}{N}}Rn(X)∈RL×NC
- 最后concat所有head的信息,并通过U∈RC×C\mathbf{U} \in \mathbb{R}^{C \times C}U∈RC×C聚合所有head的信息
根据上下文的域大小,可以将MHRA分为 local MHRA 和global MHRA
Local MHRA
在网络浅层中,目标是学习小三维时空中局部时空背景下的详细视频表示,这个观点与3D卷积也有相似之处
将作用域限制在Ωit×h×w\Omega_{i}^{t \times h \times w}Ωit×h×w中
那么将Anlocal∈Ωit×h×wA_{n}^{local} \in \Omega_{i}^{t \times h \times w}Anlocal∈Ωit×h×w作为局部可学习参数,值仅依赖于token之间的相对3D位置
Global MHRA
在网络深层中,关注于在全局视频帧中捕获长远token依赖关系。这与自注意的设计有着相似的见解。
因此,通过比较全局视图中所有token的内容相似性来设计Anglobal\mathrm{A}_{n}^{global} Anglobal:
其中,Xj\mathbf{X}_jXj从T×H×WT \times H \times WT×H×W全局进行取值
DPE
之前的方法主要采用图像任务的绝对或相对位置嵌入。
然而,当测试较长的输入帧时,绝对位置嵌入应该通过微调插值到目标输入大小。相对位置嵌入由于缺乏绝对位置信息而修改了自注意,表现较差。
为了克服上述问题,扩展了条件位置编码(CPE)来设计DPE
其中DWConv表示简单的三维深度卷积与零填充。由于卷积的共享参数和局部性,DPE可以克服置换不变性,并且对任意输入长度都很友好。此外,在CPE中已经证明,零填充可以帮助边界上的token意识到自己的绝对位置,因此所有token都可以通过查询其邻居来逐步编码自己的绝对时空位置信息
模型结构
分层堆叠UniFormer模块来构建时空学习网络
-
如图3所示,网络分为四个阶段,通道数分别为64、128、256和512。
-
对每个阶段执行不同个数的block,有以下两种选择:UniFormer- S的{3,4,8,3}和UniFormer- B的{5,8,20,7}。
-
在前两个阶段,利用local MHRA来减少局部时空冗余。设置局部域的尺寸为5×5×5,head个数N =通道数。
-
在最后两个阶段,应用global MHRA来捕获长期依赖,其每个head的维度为64。
-
对 local MHRA使用BN,对global MHRA使用LN 。
-
DPE的核大小为3×3×3
-
利用时空平均池化和全连通层输出最终预测结果
实验
COMPARISON TO STATE-OF-THE-ART
ABLATION STUDIES