Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    多模态检索【1】

    语音识别与语义处理领域
    1
    1
    55
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by

      最近申了一篇多模态信息检索的稿子
      其中引用中提到了CVPR 2020 Multi-Modality Cross Attention Network for Image and Sentence Matching
      想看一下有没有什么启发,就仔细看了一下怎么做的
      其中还引用了VQA两篇比较经典的文章,我以为肯定会对其改进,没想到结果令我失望,这样还发到CVPR2020,类似的方法19年CVPR VQA已经这么做了,没想到20年还能中,真的离谱

      文章动机在于以往的模型要么注意inter-modal,要么注意intra-modal,而文章同时关注了这两个问题(大雾),VQA不早就这样做了吗,行吧

      模型框架如下:

      总体分为两部分,绿色的为self-attention,红色的为cross-attention
      对于图像,经过faster rcnn提取,来一个transformer
      对于文本,经过一个bert提取
      图像取一个平均值得到一个全局表示
      文本就是经典2014年cnn做情感分析那篇论文,得到全局表示

      cross-attention 就是拼起来transformer,然后同上得到全局表示(本来还以为有什么改进)
      损失函数如下:

      和之前看的UNIMO类似,将匹配的映射相近,不匹配的尽可能远

      参考文献:
      https://openaccess.thecvf.com/content_CVPR_2020/papers/Wei_Multi-Modality_Cross_Attention_Network_for_Image_and_Sentence_Matching_CVPR_2020_paper.pdf

      1 Reply Last reply Reply Quote 1
      • First post
        Last post