VQA【1】
-
Check It Again: Progressive Visual Question Answering
via Visual Entailment 被录用在ACL2021上这篇任务是做VQA CP 的,总的来说,正如论文摘要写的那样,分为两个部分select-and-rerank。
模型架构如下:
which consists of a Candidate Answer Selecting module and an Answer Re-ranking module.包含这两个模块。
前者使用现有的VQA模型生成答案,再取前topN个
后者把候选答案和问题组成caption,假设图片是正确的,这样就组成了图像-描述对,然后看成Visual Entailment任务,推断描述和图像是否符合,这里借助 LXMERT来判断因为我也不是搞这个方向的,只大体看一下思路。
这个跟我看的视觉对话naacl2020的一篇文章思路感觉很相似,视觉对话有两个重要的指标,那篇是先训练一个NDCG指标,也和topN差不多,然后再在那个基础上训练,就类似于rerank。