【SIGIR-2021 Tutorial】新型信息检索排序模型:建模文档之间的依赖关系
-
在刚刚举办的SIGIR 2021会议中,由中科院计算所庞亮研究员、中国人民大学徐君教授、犹他大学艾清遥博士进行了在线tutorial报告:Beyond Probability Ranking Principle: Modeling the Dependencies among Documents,探讨新型的信息检索排序模型。
概率排序准则(Probability Ranking Principle,PRP)是排序的基本原则,该原则假设每个文档都有唯一且独立的概率来满足特定的信息需求。在过去,传统的启发式特征和大家了解的learning-to-rank都是遵循 PRP 原则设计的。此外,最近用深度学习来强化的一些排序模型,即“深度文本匹配(deep text matching)”,也遵循 PRP 原则。然而,PRP 并不是排序的最佳选择,因为在最近的许多排序任务中,每个文档都不是独立于其他文档的,例如伪相关反馈(pseudo relevance feedback)、交互式信息检索(interactive information retrieval)等。
为了解决这个问题,排序模型的新趋势转向对文档之间的依赖关系进行建模。本教程中将对排名模型超越 PRP 原则的一些最新进展给出全面的综述。希望研究人员能专注于这一领域,一起推动信息检索领域的重大进步。
本教程主要由三部分组成。首先,教程介绍了排序问题以及概率排序原理。然后介绍了 PRP 原则下的传统方法。最后,教程说明了 PRP 原理的局限性,并介绍了以序列化方式和全局方式对文档之间的依赖关系进行建模的最新工作。