多模态检索【2】
-
Graph Structured Network for Image-Text Matching CVPR2022
这一篇还有点启发
一开始看introduction的时候,感觉还有点复杂,还涉及到属性,关系之类的东西,我以为还要自己去生成,后来仔细一看,都是一类东西,这表示他们存在边,这样的做法,我在ACL2020一篇文章也见过,但那篇没有开源代码,这篇有代码模型架构如下:
他是用的CoreNLP做的,我之前是用的别的提取的
总的来说,是先建图,然后先图与图之间传播,达到对齐的效果,或者说叫做cross-attention或者inter,然后再图内传播,我一直觉得图神经网络和transformers是差不多的那个inter部分,或者论文中Node-level Matching我还需要看一下代码,暂时没看懂
对了,其中还提到了稀疏图和稠密图,这个我还要仔细看一下,可能会对我有些启发
参考文献:
https://arxiv.org/abs/2004.00277
这是2020年那篇ACL,希望对别人有所启发吧https://www.aclweb.org/anthology/2020.acl-main.642.pdf -
这周手速可以啊,小小表扬一下