SMP对话式AI算法评测
-
赛题背景
对话式AI是人工智能和人机交互领域非常重要的研究方向,如果说自然语言处理是“人工智能皇冠上的明珠”,那么对话式AI则被誉为“自然语言处理皇冠上的明珠”,其重要性可见一斑。近年来,对话式AI方向在学术界和产业界都备受关注,在算法技术也取得了令人瞩目的进展,然而在小样本学习、上下文理解、开放域对话等方面仍存在较大发展空间。
对话式AI是OPPO公司级战略技术方向之一,对于打造面向智能设备的智慧操作系统,为用户提供有趣、贴心的智能交互体验具有非常重要的意义。鉴于对话式AI技术还在高速发展中,OPPO公司迫切希望能和学术界、工业界的从业者一起努力,共同构建更自然、更智能的对话式AI能力。
在上述背景之下,OPPO小布智能中心联合中国中文信息学会社会媒体处理专委会、清华大学计算机科学与技术系CoAI课题组,共同发起并主办 “小布助手对话式指代消解与省略恢复”,有针对性地设置3万条数据,总奖金池5万元。旨在通过提供真实的业务场景和数据集,推动对话式AI相关算法方向的前沿研究和人才培养,并最终回馈社会。
比赛任务
本次比赛使用OPPO小布助手开放的“对话式指代消解与省略恢复”数据集。数据集中包括了3万条对话交互数据。每条数据样本提供三轮对话,分别是上轮query、上轮应答和本轮query,选手需要使用算法技术将本轮query(即第三轮)处理成上下文无关的query。
组织机构
主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)
承办方:OPPO小布智能中心、清华大学计算机科学与技术系CoAI课题组
赞助方:OPPO公司数据介绍
本次比赛使用的数据由训练集、验证集、测试集三部分组成,其中训练集是2万条,验证集和测试集分别是5000条。
数据集文件介绍:
train.txt
本数据集为训练集,包含以下内容:
每行采用json格式,用于表示一个样本。每条训练数据由query-01、response-01、query-02、query-02-rewrite四部分组成,分别是上轮query、上轮应答,本轮query,本轮query对应的上下文无关的query。具体格式举例:
{“query-01”: “你喜欢张学友的歌嘛”, “response-01”: “喜欢啊”, “query-02”: “最喜欢哪首呢”, “query-02-rewrite”: “最喜欢哪首张学友的歌呢”}validation.txt
本数据集为验证集,包含以下内容:
每行采用json格式,用于表示一个样本。每条样本数据由query-01、response-01、query-02三部分组成,具体格式举例:
{“query-01”: “你喜欢张学友的歌嘛”, “response-01”: “喜欢啊”, “query-02”: “最喜欢哪首呢”}test.txt
本数据集为测试集,格式和验证集相同。测试集将在比赛最后发布,参赛选手有【24】小时在测试集上得到预测结果并提交。sample.txt
样例提交文件,格式和训练集相同。