【赛后经验】2022“阿里灵杰”问天引擎电商搜索算法赛之季军分享!
-
团队简介
团队名称:gpushare.com-比赛
团队成员(两只第一次组队打比赛的菜鸡):
wanfq:西安交通大学本科生,研究方向为对话系统
dingdingtom:中山大学本科生,研究方向为对话系统、强化学习比赛成绩
初赛:11 / 2771 (0.337)
复赛:5 / 2771 (0.3789)
决赛:4 / 2771 (季军 + 技术创新奖)任务简介
本次比赛是电商领域的搜索赛题,初赛为召回任务,需要提交搜索query和商品document的向量表示;复赛为精排任务,需要提交初赛向量表示,query和document的tokenize后的ids,以及tf 1.12版本的模型,返回搜索query与召回的top-k商品document对应的得分,作为排序依据(有时间限制和模型大小限制)。
方法简介
1. 向量召回
向量召回的模型结构如图所示:
主要分为领域数据训练和召回任务微调两步
1.1 领域数据后训练
1.2 召回任务微调
1.3 召回任务结果
2. 精排模型
精排模型的模型结构如图所示:
2.1 精排任务微调
2.2 线下验证
2.3 精排任务结果
总结与反思
我们的方法其实比较常规,很多可能有效的方案有提出过,但因为时间和偷懒没尝试;
所有代码能在一台机器上跑就不要分几台,且尽量避免写绝对路径,否则最后交代码调整文件路径会很恐怖;
时间分配要更合理,数据清洗与数据增强时间,构造baseline时间,调参时间,写trick时间,跑多个预训练模型时间,融合模型时间,提交文件时间,都要合理安排;
所有操作一定要确保可复现,特别是数据构造部分;
多写脚本,代替手动运行,避免浪费时间;
多讨论,多请教,多看论文,避免闭门造车与拍脑袋瞎想。
代码地址
整理中。
-
Alice_恒源云
-
Alice_恒源云
-