Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    VQA【1】

    语音识别与语义处理领域
    1
    1
    37
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 188****7632
      188****7632 last edited by

      Check It Again: Progressive Visual Question Answering
      via Visual Entailment 被录用在ACL2021上

      这篇任务是做VQA CP 的,总的来说,正如论文摘要写的那样,分为两个部分select-and-rerank。

      模型架构如下:

      which consists of a Candidate Answer Selecting module and an Answer Re-ranking module.包含这两个模块。

      前者使用现有的VQA模型生成答案,再取前topN个
      后者把候选答案和问题组成caption,假设图片是正确的,这样就组成了图像-描述对,然后看成Visual Entailment任务,推断描述和图像是否符合,这里借助 LXMERT来判断

      因为我也不是搞这个方向的,只大体看一下思路。

      这个跟我看的视觉对话naacl2020的一篇文章思路感觉很相似,视觉对话有两个重要的指标,那篇是先训练一个NDCG指标,也和topN差不多,然后再在那个基础上训练,就类似于rerank。

      参考文献:
      https://arxiv.org/abs/2106.04605

      1 Reply Last reply Reply Quote 1
      • First post
        Last post