Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    【赛后经验】2022“阿里灵杰”问天引擎电商搜索算法赛之季军分享!

    竞赛赞助
    1
    2
    33
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • Alice_恒源云
      Alice_恒源云 last edited by Alice_恒源云

      团队简介

      团队名称:gpushare.com-比赛

      团队成员(两只第一次组队打比赛的菜鸡):

      wanfq:西安交通大学本科生,研究方向为对话系统
      dingdingtom:中山大学本科生,研究方向为对话系统、强化学习

      比赛成绩

      初赛:11 / 2771 (0.337)
      复赛:5 / 2771 (0.3789)
      决赛:4 / 2771 (季军 + 技术创新奖)

      任务简介

      本次比赛是电商领域的搜索赛题,初赛为召回任务,需要提交搜索query和商品document的向量表示;复赛为精排任务,需要提交初赛向量表示,query和document的tokenize后的ids,以及tf 1.12版本的模型,返回搜索query与召回的top-k商品document对应的得分,作为排序依据(有时间限制和模型大小限制)。

      1.jpeg

      方法简介

      1. 向量召回

      向量召回的模型结构如图所示:

      2.jpeg

      主要分为领域数据训练和召回任务微调两步

      3.jpeg

      1.1 领域数据后训练

      4.jpeg

      5.jpeg

      1.2 召回任务微调

      6.jpeg

      7.jpeg

      8.jpeg

      1.3 召回任务结果

      9.jpeg

      2. 精排模型

      精排模型的模型结构如图所示:

      10.jpeg

      11.jpeg

      2.1 精排任务微调

      12.jpeg

      13.jpeg

      14.jpeg

      15.jpeg

      16.jpeg

      2.2 线下验证

      17.jpeg

      2.3 精排任务结果

      18.jpeg

      总结与反思

      我们的方法其实比较常规,很多可能有效的方案有提出过,但因为时间和偷懒没尝试;

      所有代码能在一台机器上跑就不要分几台,且尽量避免写绝对路径,否则最后交代码调整文件路径会很恐怖;

      时间分配要更合理,数据清洗与数据增强时间,构造baseline时间,调参时间,写trick时间,跑多个预训练模型时间,融合模型时间,提交文件时间,都要合理安排;

      所有操作一定要确保可复现,特别是数据构造部分;

      多写脚本,代替手动运行,避免浪费时间;

      多讨论,多请教,多看论文,避免闭门造车与拍脑袋瞎想。

      代码地址

      整理中。

      1 Reply Last reply Reply Quote 1
      • Deleted by  Alice_恒源云 Alice_恒源云 
      • Restored by  Alice_恒源云 Alice_恒源云 
      • Alice_恒源云
        Alice_恒源云 last edited by

        再次恭喜本赛季军获奖队伍!已获得平台初赛、复赛、最终排名算力奖励~

        ➡️ 更多作者文章干货,戳我直达知乎原文

        ➡️ 算力不够?戳我申请GPU赞助(200元代金券起)

        1 Reply Last reply Reply Quote 1
        • First post
          Last post