多模态检索【3】
-
Dynamic Modality Interaction Modeling for Image-Text Retrieval
是SIGIR2021 最佳学生论文
不得不承认,写的层次比之前看的确实要高一级,和Vit有一拼文章首先总结了以往模型的策略,大体分为三种,Intra-modal Interaction,Cross-modal Interaction,Hybrid-modal Interaction。
动机在于这样模型就固定下来,不同的输出会经过同样处理,即使是简单的,也可能会经历复杂的架构,基于此,提出了动态的架构,可以自由选择。
为了解决这些问题,本文提出了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像-文本检索的统一动态多模态交互框架。具体来说,坐着首先设计了四种类型的单元格作为基本单元来探索不同层次的模态交互,然后以密集的策略将它们连接起来以构建路由空间。
本文的模型首先分别使用从底至顶的注意力机制抽取图像特征并选择得分靠前的区域,另一方面使用 BERT+CNN 抽取文本特征。在此基础上设计了四种交互方式:
Rectified Identity Cell:通过 Relu 保留有区别的线索;
Intra-Modal Reasoning Cell:通过注意力机制建模模态内的交互特征;
Global-Local Guidance Cell:通过一种模态指导另一种模态的注意力交互;
Cross-Modal Refinement Cell:两种模态互相交互的特征。具体的模型图如下:
在此基础上,本文使用了动态路由的机制选择交互的方式,在训练的阶段,除了原本的损失函数以外,还加入了路径正则的机制,使得相同的语义信息应该选择相同的路径。
不得出承认,这种思路确实很细,Dynamic Network像我这种根本就不知道,太难了
因为还没开源代码,只能看看这个4个部分,有没有什么启发,insight确实比我高一个层次
参考文献:
https://dl.acm.org/doi/abs/10.1145/3404835.3462829
https://mp.weixin.qq.com/s/13y4x0H6kzNUawe202-BXg -
哭了,iccv 2021有一篇就是类似的套路,换到别的任务上了