多模态检索【1】
-
最近申了一篇多模态信息检索的稿子
其中引用中提到了CVPR 2020 Multi-Modality Cross Attention Network for Image and Sentence Matching
想看一下有没有什么启发,就仔细看了一下怎么做的
其中还引用了VQA两篇比较经典的文章,我以为肯定会对其改进,没想到结果令我失望,这样还发到CVPR2020,类似的方法19年CVPR VQA已经这么做了,没想到20年还能中,真的离谱文章动机在于以往的模型要么注意inter-modal,要么注意intra-modal,而文章同时关注了这两个问题(大雾),VQA不早就这样做了吗,行吧
模型框架如下:
总体分为两部分,绿色的为self-attention,红色的为cross-attention
对于图像,经过faster rcnn提取,来一个transformer
对于文本,经过一个bert提取
图像取一个平均值得到一个全局表示
文本就是经典2014年cnn做情感分析那篇论文,得到全局表示cross-attention 就是拼起来transformer,然后同上得到全局表示(本来还以为有什么改进)
损失函数如下:
和之前看的UNIMO类似,将匹配的映射相近,不匹配的尽可能远