Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags
    1. Home
    2. 151****8705
    1
    • Profile
    • Following 0
    • Followers 1
    • Topics 70
    • Posts 76
    • Best 43
    • Groups 0

    151****8705

    @151****8705

    67
    Reputation
    13
    Profile views
    76
    Posts
    1
    Followers
    0
    Following
    Joined Last Online

    151****8705 Unfollow Follow

    Best posts made by 151****8705

    • 自然语言处理顶级会议论文写作分享(自己总结的)

      这两年,经历了几次会议的“赶稿子”之后,发现自己的写作能力是软肋,这两天拜读了刘洋老师和刘知远老师的报告后,总结一下,希望对未来的自己有所帮助。

      1.观念的转变:
      以作者为核心整理工作->以读者为核心整理工作
      2.降低文章的理解难度
      3.解决的问题过程:
      先思考,再去查⽂献相互印证
      具有语⾔学理论的⽀撑,符合语⾔学角度的直觉。
      接下来就是一篇文章的几个部分了:

      标题:
      ⽤⼀句话概括你所做的⼯作 考虑搜索引擎的影响,包含关键词

      摘要:
      1.问题是什么
      2.我们做了什么
      3.我们怎么做的
      4.我们做的还不错(说明结果)

      介绍:
      常见的逻辑:
      1.说明问题是什么
      2.简单罗列前⼈⼯作
      3.描述我们的⼯作 更好的逻辑
      更好的逻辑:
      1.说明问题是什么
      2.目前最好的⼯作⾯临什么挑战
      3.我们的⽅法能缓解上述挑战

      段落:
      1.每个段落有个论断性的中⼼句
      2.其余部分都是⽀撑句,围绕中⼼句展开论证
      1.前⼈⼯作
      2.具体数据
      3.⽀撑句之间可分类组织
      4.段尾可以加上衔接句

      图和表是论⽂的⾻架,争取让读者按照顺序看就 能理解论⽂的主要思想,不⽤通过看正⽂才能懂

      ⽅法:
      1.不要⼀上来就描述你的⼯作,可以先介绍背景知 识(往往就是baseline)
      2.有利于降低初学者或其他领域学者的理解难度
      3.有利于对introduction中的论⽂做更详细的解释
      4.有利于对⽐baseline和你的⽅法

      Running Example是利器:
      1.英语不好说不清楚?⽤例⼦!
      2.全篇统⼀使⽤⼀个running example,⽤来阐释你 的⽅法(甚⾄是baseline)
      3.围绕着running example,展开描述你的⼯作
      4. 审稿⼈能从running example中更舒服地了解你的 ⼯作,读正⽂会花掉他/她更多时间
      5. 看完running example,审稿⼈便能知道核⼼思想

      实验设计:
      1.公认的标准数据和state-of-the-art系统 实
      2.实验先辅后主:
      1.辅助实验(开发集):参数的影响
      2.主实验(测试集):证明显著超过baseline
      3. 必须有显著性检验
      4. 不辞⾟劳,做到极致

      有用的话麻烦点个赞 谢谢~!
      以上就是自己总结的几个部分 参考链接如下:
      https://www.jiqizhixin.com/articles/19031101 刘知远老师文章
      刘洋老师ppt 强烈推荐看一遍!!!http://nlp.csai.tsinghua.edu.cn/~ly/talks/cwmt14_tut.pdf

      posted in 顶会期刊
      1
      151****8705
    • 【内推-实习】阿里巴巴达摩院语言技术实验室自然语言处理算法岗位实习生

      我们是

          阿里巴巴达摩院语言技术实验室 (https://damo.alibaba.com/labs/language-technology)的应用算法团队。
      

      我们要

          招2022年毕业的校招实习生!!!有意向者发简历到 hongye.shy@alibaba-inc.com 。
      

      上干货

          团队围绕信息抽取、文本分类、文本摘要、文本生成、语义理解、主动学习、情感分析、内容审核等核心技术,赋能阿里集团内部、外部的重要业务。深入重要的行业(如司法、通信、政务、教育、金融等)和场景(如合同、电销、舆情、审核、评价等),依托自主研发的NLP自学习平台,通过定制化和平台化的能力不断突破技术深度、打磨业务价值和输出商业化能力。
      

      21年发表论文:

      Zihan Wang,Hongye Song,Zhaochun Ren,Xiaozhong Liu,Hongsong Li,Pengjie Ren,Maarten de Rijke. Cross-Domain Contract Element Extraction with a Bi-directional Feedback Clause-Element Relation Network. Sigir 2021(regular long paper)
      Yicheng Zou, Lujun Zhao, Yangyang Kang, Jun Lin, Minlong Peng, Zhuoren Jiang, Changlong Sun, Qi Zhang, Xuanjing Huang and Xiaozhong Liu. Topic-Oriented Spoken Dialogue Summarization for Customer Service with Saliency-Aware Topic Modeling. AAAI, 2021. (regular long paper)
      Yicheng Zou, Jun Lin, Lujun Zhao, Yangyang Kang, Zhuoren Jiang, Changlong Sun, Qi Zhang, Xuanjing Huang and Xiaozhong Liu. Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and Context-Aware Auto-Encoders. AAAI, 2021. (regular long paper)
      Jiawei Liu, Zhe Gao, Yangyang Kang, Zhuoren Jiang, Guoxiu He, Changlong Sun, Xiaozhong Liu and Wei Lu. Time to Transfer: Predicting and Evaluating Machine-Human Chatting Handoff. AAAI, 2021. (regular long paper)
      Kaisong Song, Yangyang Kang, Wei Gao, Zhe Gao, Changlong Sun and Xiaozhong Liu. Evidence Aware Neural Pornographic Text Identification for Child Protection. AAAI, 2021. (regular long paper)
      Yongkang Liu, Shi Feng, Daling Wang, Kaisong Song, Feiliang Ren, Yifei Zhang. A Graph Reasoning Network for Multi-turn Response Selection via Customized Pre-training. AAAI, 2021. (regular long paper)
      Quanzhi Li, Qiong Zhang. Court Opinion Generation from Case Fact Description with Legal Basis. AAAI, 2021. (regular long paper)
      Longcan Wu, Daling Wang, Shi Feng, Kaisong Song, Yifei Zhang, Ge Yu. Which Node Pair and What Status? Asking Expert for Better Network Embedding. DASFAA 2021. (regular long paper)
      Shi Feng, Kaisong Song, Daling Wang, Yifei Zhang, Wei Gao. InterSentiment: combining deep neural models on interaction and sentiment for review rating prediction. International Journal of Machine Learning and Cybernetics. (regular long paper)
      Yongzhen Wang, Kaisong Song, Lidong Bing, Xiaozhong Liu. Harvest Shopping Advice: Neural Question Generation from Multiple Information Sources In E-commerce. Neural Computing. (regular long paper)

         论文分享:
          阿里达摩院 | 基于双向反馈条款-要素关系网络的跨领域合同要素抽取
      

      具体JD
      阿里巴巴达摩院自然语言处理算法岗位校招实习生,要求是2022年毕业的实习生。有意向者发简历到 hongye.shy@alibaba-inc.com 。
      【岗位描述Job Description】
      阿里巴巴广阔的商业生态需要丰富且深入的的自然语言处理技术,涵盖了从应用层的机器翻译、智能对话、智能客服、广告搜索, 信息抽取以及在医疗,能源,安全等行业应用到底层的词法分析、句法分析、语义分析、文档分析、深度文本表示、文本生成、知识库建设。阿里巴巴的自然语言处理技术正在推进平台化、服务化策略,不断追求技术的深度以及技术与业务的适当解耦。本岗位需要招聘自然语言处理专业的优秀本科、硕士、博士毕业生一起来夯实基础、赋能商业,实现技术与商业的完美结合。期待追求卓越、自我驱动、聪明、乐观、自省、皮实的优秀人士加入阿里巴巴,共同开创人工智能和大数据,云计算共同赋能的商业新格局。
      【具体职责包括但不限于】
      1、紧跟业界最新自然语言处理技术动态,深入研发并努力创新自然语言处理相关的知识库、词法、句法、语义、文档分析、深度学习、机器翻译、智能对话等技术,包括新颖的算法/模型的提出,模块的实际开发,对接自然语言处理平台的接入以及把高水平研发成果以论文/专利等形式进行发布;
      2、理解自然语言处理技术应用的相关的业务场景及需求,在自然语言处理技术内核的基础上考虑业务场景的特殊性进而适当适配业务需求;
      3、在核心技术研发之外,也会适当参与到具体的NLP相关业务中,例如文本内容的理解,商业场景的多语言多模态翻译和沟通,搜索Query分析、智能对话的语义解析及意图理解、商品评价的语义理解、内容搜索推荐的结构化分析、商品搜索推荐的标签体系、社会化问答的文本分析、智能客服的场景定制等。
      【岗位要求Qualifications】
      1、本科及以上学历,硕士博士优先,计算机、数学、信息管理等相关专业;
      2、具备极佳的工程实现能力,精通C/C++、Java、Python、Perl等至少一门语言;对目前主流的深度学习平台:tensorflow、pytorch、mxnet等,至少对其中一个有上手经验;
      3、精通自然语言处理领域的1到2项底层技术,有实际成果并发表在自然语言处理国际顶级会议、期刊者优先,有在相关的自然语言处理竞赛中获得优异成绩者优先;
      4、熟悉深度学习以及常见机器学习算法的原理与算法,能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题,有大数据处理的实战经验;
      5、有强烈求知欲,对人工智能领域相关技术有热情;
      6、具有良好的数学基础,良好的英语阅读能力;
      7、有团队意识,与他人合作良好,最好具有团队协作的经验。
      同时,我们还希望你:

      1. 学习能力强,对新事物保有好奇心,并能快速适应新环境
      2. 良好的沟通能力和团队协同能力;能与他人合作,共同完成目标
      3. 对所在领域有热情,相信方法总比困难多,善于独立思考并反思总结
      posted in 校招社招
      1
      151****8705
    • TinyBERT 蒸馏速度实现加速小记

      最近做的一个 project 需要复现 EMNLP 2020 Findings 的 TinyBERT,这篇文章就是在复现过程对踩到坑,以及对应的解决方案和实现加速的一个记录。

      Overview of TinyBERT

      BERT 效果虽好,其较大内存消耗和较长的推理延时会对其上线部署造成一定挑战。内存消耗方面,一系列知识蒸馏的工作,例如 DistilBERT、BERT-PKD 和 TinyBERT 被提出来来降低模型的参数(主要是层数)以及相应地减少时间;推理加速方面,也有例如 DeeBERT、FastBERT 以及 CascadeBERT 等方案来动态地根据样本难度进行模型的执行从而提升推理效率。其中比较具备代表性便是 TinyBERT,其核心框架如下:


      分为两个阶段:

      1. General Distillation:在通用的语料,例如 BookCorpus, EnglishWiki 上进行知识蒸馏,目标函数包括 Transformer Layer Attention 矩阵以及 Layer Hidden States 的对齐;
      2. Task Distillation:在具体的任务数据集上进行蒸馏,又被进一步分成两个步骤:
        • Task Transformer Disitllation: 在任务数据集上对齐 Student 和已经 fine-tuned Teacher model 的 attention map 和 hidden states;
        • Task Prediction Distillation:在任务数据集上对 student model 和 teacher model 的 output distritbuion 利用 KL loss / MSE loss 进行对齐。

      TinyBERT 提供了经过 General Distillation 阶段的 checkpoint,可以认为是一个小的 BERT,包括了 6L786H 版本以及 4L312H 版本。而我们后续的复现就是基于 4L312H v2 版本的。值得注意的是,TinyBERT 对任务数据集进行了数据增强操作,通过基于 Glove 的 Embedding Distance 的相近词替换以及 BERT MLM 预测替换,会将原本的数据集扩增到 20 倍。而我们遇到的第一个 bug 就是在数据增强阶段。

      Bug in Data Augmentation

      我们可以按照官方给出的代码对数据进行增强操作,但是在 QNLI 上会报错:

      Index Error: index 514 is out of dimension 1 with size 512

      造成数据增强到一半程序就崩溃了,为什么呢?

      很简单,因为数据增强代码 BERT MLM 换词模块对于超长(> 512)的句子没有特殊处理,造成下标越界,具体可以参考 #Issue50。

      在对应的函数中进行边界的判断即可:

      def _masked_language_model(self, sent, word_pieces, mask_id):
      
          if mask_id > 511: # if mask id is longer than max length 
              return [] 
          tokenized_text = self.tokenizer.tokenize(sent)
          tokenized_text = ['[CLS]'] + tokenized_text
          tokenized_len = len(tokenized_text)
          tokenized_text = word_pieces + ['[SEP]'] + tokenized_text[1:] + ['[SEP]']
          segments_ids = [0] * (tokenized_len + 1) + [1] * (len(tokenized_text) - tokenized_len - 1)
          if len(tokenized_text) > 512: #  truncation 
              tokenized_text = tokenized_text[:512]
              segments_ids = segments_ids[:512]  
          token_ids = self.tokenizer.convert_tokens_to_ids(tokenized_text)
          tokens_tensor = torch.tensor([token_ids]).to(device)
          segments_tensor = torch.tensor([segments_ids]).to(device)
          self.model.to(device)
          predictions = self.model(tokens_tensor, segments_tensor)
          word_candidates = torch.argsort(predictions[0, mask_id], descending=True)[:self.M].tolist()
          word_candidates = self.tokenizer.convert_ids_to_tokens(word_candidates)
      
          return list(filter(lambda x: x.find("##"), word_candidates))
      

      Acceleration of Data Parallel

      当我们费劲愉快地完成数据增强之后,下一步就是要进行 Task Specific 蒸馏里的 Step 1,General Distillation 了。对于一些小数据集像 MRPC,增广 20 倍之后的数据量依旧是 80k 不到,因此训练速度还是很快的,20 轮单卡大概半天也能跑完。但是对于像 MNLI 这样 GLUE 中最大的数据集(390k),20 倍增广后的数据集(增广就花费了大约 2 天时间),如果用单卡训练个 10 轮那可能得跑上半个月了,到时候怕不是黄花菜都凉咯。遂打算用多卡训练,一看,官方的实现就通过 nn.DataParallel 支持了多卡。好嘛,直接 CUDA_VISIBLE_DEVICES=“0,1,2,3” 来上 4 块卡。不跑不知道,加载数据(tokenize, padding )花费 1小时,好不容易跑起来了,一开 nvidia-smi 吓一跳,GPU 的利用率都在 50% 左右,再一看预估时间,大约 21h 一轮,10 epoch 那四舍五入就是一个半礼拜。好家伙,这我还做不做实验了?这时候就去翻看 PyTorch 文档,发现 PyTorch 现在都不再推荐使用 nn.DataParallel 了,为什么呢?主要原因在于 DataParallel 的实现是单进程的,每次都是有一块主卡读入数据再发给其他卡,这一部分不进带来了额外的计算开销,而且会造成主卡的 GPU 显存占用会显著高于其他卡,进而造成潜在的 batch size 限制;此外,这种模式下,其他 GPU 算完之后要传回主卡进行同步,这一步又会受限于 Python 的线程之间的 GIL(global interpreter lock),进一步降低了效率。此外,还有多机以及模型切片等 DataParallel 不支持,但是另一个 DistributedDataParallel 模块支持的功能。所以,废话少说,得把原先 TinyBERT DataParallel(DP)改成 DistributedDataParallel(DDP)。那么,请问,把 DP 改成 DDP 需要几步?答:大概,就那么多步。核心的代码就是做一下初始化,以及用 DDP 替换掉 DP:

      from torch.nn.parallel import DistributedDataParallel as DDP
      import torch.distributed as dist 
      
      # 给 parser 增加一个 local rank 参数来在启动的时候传入 rank 
      parser.add_argument('--local_rank',
                              type=int,
                              default=-1)
      # ...
      
      # 初始化
      logger.info("Initializing Distributed Environment")
      torch.cuda.set_device(args.local_rank)
      dist.init_process_group(backend="nccl")
      
      # 设置 devicec
      local_rank = args.local_rank
      torch.cuda.set_device(local_rank)
      
      # ...
      
      # 初始化模型 并且 放到 device 上
      student_model = TinyBertForSequenceClassification.from_pretrained(args.student_model, num_labels=num_labels).to(device)    
      teacher_model = TinyBertForSequenceClassification.from_pretrained(args.teacher_model, num_labels=num_labels).to(device)
      
      # 用 DDP 包裹模型
      student_model = DDP(student_model, device_ids=[local_rank], output_device=local_rank)
      teacher_model = DDP(teacher_model, device_ids=[local_rank], output_device=local_rank)
      
      # ..
      
      # 用 DistributedSampler 替换原来的 Random Sampler
      train_sampler = torch.utils.data.DistributedSampler(train_data)
      

      然后,大功告成,一键启动:

      GPU=”0,1,2,3”
      CUDA_VISIBLE_DEVICEES=$GPU python -m torch.distributed.launch –n_proc_per_node 4 task_disti.py
      启动成功了吗?模型又开始处理数据….

      One hours later,机器突然卡住,程序的 log 也停了,打开 htop 一看,好家伙,256G 的内存都满了,程序都是 D 状态,咋回事?

      Acceleration of Data Loading

      我先试了少量数据,降采样到 10k,程序运行没问题, DDP 速度很快;我再尝试了单卡加载,虽然又 load 了一个小时,但是 ok,程序还是能跑起来,那么,问题是如何发生的呢?单卡的时候我看了一眼加载全量数据完毕之后的内存占用,大约在 60G 左右,考虑到 DDP 是多进程的,因此,每个进程都要独立地加载数据,4 块卡 4个进程,大约就是 250 G 的内存,因此内存爆炸,到后面数据的 io 就卡住了(没法从磁盘 load 到内存),所以造成了程序 D 状态。看了下组里的机器,最大的也就是 250 G 内存,也就是说,如果我只用 3 块卡,那么是能够跑的,但是万一有别的同学上来开程序吃了一部分内存,那么就很可能爆内存,然后就是大家的程序都同归于尽的局面,不太妙。一种不太优雅的解决方案就是,把数据切块,然后读完一小块训练完,再读下一块,再训练,再读。咨询了一下组里资深的师兄,还有一种办法就是实现一种把数据存在磁盘上,每次要用的时候才 load 到内存的数据读取方案,这样就能够避免爆内存的问题。行吧,那就干吧,但是总不能从头造轮子吧?脸折师兄提到 huggingface(yyds) 的 datasets 能够支持这个功能,check 了一下文档,发现他是基于 pyarrow 的实现了一个 memory map 的数据读取,以我的 huggingface transformers 的经验,似乎是能够实现这个功能的,所以摩拳擦掌,准备动手。

      首先,要把增广的数据 load 进来,datasets 提供的 load_dataset 函数最接近的就是 load_dataset(‘csv’, data_file),然后我们就可以逐个 column 的拿到数据并且进行预处理了。写了一会,发现总是报读取一部分数据后 columns 数目不对的错误,猜测可能原始 MNLI 数据集就不太能保证每个列都是在的,检查了一下 MnliProcessor 里处理的代码,发现其写死了 line[8] 和 line[9] 作为 sentence_a 和 sentence_b。无奈之下,只能采取最粗暴地方式,用 text mode 读进来,每一行是一个数据,再 split:

      from datasets import 
      
      processor = processors[task_name]()
      output_mode = output_modes[task_name]
      label_list = processor.get_labels()
      num_labels = len(label_list)
      
      tokenizer = BertTokenizer.from_pretrained(args.student_model, do_lower_case=args.do_lower_case)
      # 用 text
      mnli_datasets = load_dataset("text", data_files=os.path.join(args.data_dir, "train_aug.tsv"))
      label_classes = processor.get_labels()
      label_map = {label: i for i, label in enumerate(label_classes)}
              def preprocess_func(examples, max_seq_length=args.max_seq_length):
                  splits = [e.split('\t') for e in examples['text']] # split
                  # tokenize for sent1 & sent2
                  tokens_s1 = [tokenizer.tokenize(e[8]) for e in splits] 
                  tokens_s2 = [tokenizer.tokenize(e[9]) for e in splits]
                  for t1, t2 in zip(tokens_s1, tokens_s2):
                      truncate_seq_pair(t1, t2, max_length=max_seq_length - 3)
                  input_ids_list = []
                  input_mask_list = []
                  segment_ids_list = []
                  seq_length_list = []
                  labels_list = []
                  labels = [e[-1] for e in splits] # last column is label column 
                  for token_a, token_b, l in zip(tokens_s1, tokens_s2, labels):  # zip(tokens_as, tokens_bs):
                      tokens = ["[CLS]"] + token_a + ["[SEP]"]
                      segment_ids = [0] * len(tokens)
                      tokens += token_b + ["[SEP]"]
                      segment_ids += [1] * (len(token_b) + 1)
                      input_ids = tokenizer.convert_tokens_to_ids(tokens) # tokenize to id 
                      input_mask = [1] * len(input_ids)
                      seq_length = len(input_ids)
                      padding = [0] * (max_seq_length - len(input_ids))
                      input_ids += padding
                      input_mask += padding
                      segment_ids += padding
                      assert len(input_ids) == max_seq_length
                      assert len(input_mask) == max_seq_length
                      assert len(segment_ids) == max_seq_length
                      input_ids_list.append(input_ids)
                      input_mask_list.append(input_mask)
                      segment_ids_list.append(segment_ids)
                      seq_length_list.append(seq_length)
                      labels_list.append(label_map[l])
      
                  results = {"input_ids": input_ids_list,
                             "input_mask": input_mask_list,
                             "segment_ids": segment_ids_list,
                             "seq_length": seq_length_list,
                             "label_ids": labels_list}
                  return results
      # map datasets
      mnli_datasets = mnli_datasets.map(preprocess_func, batched=True)
      # remove column
      train_data = mnli_datasets['train'].remove_columns('text')
      

      写完这个 preprocess_func ,我觉得胜利在望,但还有几个小坑需要解决:

      • map 完之后,返回的还是一个 DatasetDict,得手动取一下 train set;

      • 对于原先存在的列,map 函数并不会去除掉,所以如果不用的列,需要手动 .remove_columns()

      • 在配合 DDP 使用的时候,因为 DistributedSample 取数据的维度是在第一维取的,所以取到的数据可能是个 seq_len 长的列表,里面的 tensor 是 [bsz] 形状的,需要在交给 model 之前 stack 一下:

      inputs = {}
      for k, v in batch.items():
          if isinstance(v, torch.Tensor):
              inputs[k] = v.to(device)
          elif isinstance(v, List):
              inputs[k] = torch.stack(v, dim=1).to(device)
      
      

      至此,只要把之前代码的 train_data 都换成现在的版本即可。

      此外,为了进一步加速,我还把混合精度也整合了进来,现在 Pytorch 以及自带对混合精度的支持,代码量也很少,但是有个坑就是loss 的计算必须被 auto() 包裹住,同时,所有模型的输出都要参与到 loss 的计算,这对于只做 prediction 或者是 hidden state 对齐的 loss 很不友好,所以只能手动再额外计算一项为系数为 0 的 loss 项(这样他参与到训练但是不会影响梯度)。

      posted in 顶会期刊
      1
      151****8705
    • 自然语言处理顶会 2019年文本摘要 所有论文合集

      ACL会议:

      A Modular Tool for Automatic Summarization
      A Simple Theoretical Model of Importance for Summarization
      Abstractive Text Summarization Based on Deep Learning and Semantic Content Generalization
      BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization
      BiSET: Bi-directional Selective Encoding with Template for Abstractive Summarization
      Global Optimization under Length Constraint for Neural Text Summarization
      HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization
      Hierarchical Transformers for Multi-Document Summarization
      HighRES: Highlight-based Reference-less Evaluation of Summarization
      Improving Abstractive Document Summarization with Salient Information Modeling
      Improving the Similarity Measure of Determinantal Point Processes for Extractive Multi-Document Summarization
      Inducing Document Structure for Aspect-based Summarization
      Keep Meeting Summaries on Topic: Abstractive Multi-Modal Meeting Summarization
      Multi-News: A Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model
      Multimodal Abstractive Summarization for How2 Videos
      Not All Reviews Are Equal: Towards Addressing Reviewer Biases for Opinion Summarization
      On the Summarization of Consumer Health Questions
      STRASS- A Light and Effective Method for Extractive Summarization Based on Sentence Embeddings
      Scoring Sentence Singletons and Pairs for Abstractive Summarization
      Searching for Effective Neural Extractive Summarization: What Works and What’s Next
      Self-Supervised Learning for Contextualized Extractive Summarization
      Sentence Centrality Revisited for Unsupervised Summarization
      Simple Unsupervised Summarization by Contextual Matching
      Studying Summarization Evaluation Metrics in the Appropriate Scoring Range
      TalkSumm: A Dataset and Scalable Annotation Method for Scientific Paper Summarization Based on Conference Talks
      Unsupervised Neural Single-Document Summarization of Reviews via Learning Latent Discourse Structure and its Ranking
      Zero-Shot Cross-Lingual Abstractive Sentence Summarization through Teaching Generation and Attention

      EMNLP 会议:

      A Summarization System for Scientific Documents
      Abstract Text Summarization: A Low Resource Challenge
      An Entity-Driven Framework for Abstractive Summarization
      Answers Unite! Unsupervised Metrics for Reinforced Summarization Models
      Attention Optimization for Abstractive Document Summarization
      Attribute-aware Sequence Network for Review Summarization
      BottleSum: Unsupervised and Self-supervised Sentence Summarization using the Information Bottleneck Principle
      Concept Pointer Network for Abstractive Summarization
      Contrastive Attention Mechanism for Abstractive Sentence Summarization
      Countering the Effects of Lead Bias in News Summarization via Multi-Stage Training and Auxiliary Losses
      Cross-Task Knowledge Transfer for Query-Based Text Summarization
      Deep Reinforcement Learning with Distributional Semantic Rewards for Abstractive Summarization
      Earlier Isn’t Always Better: Sub-aspect Analysis on Corpus and System Biases in Summarization
      Extractive Summarization of Long Documents by Combining Global and Local Context
      How to Write Summaries with Patterns? Learning towards Abstractive Summarization through Prototype Editing
      Improving Latent Alignment in Text Summarization by Generalizing the Pointer Generator
      NCLS: Neural Cross-Lingual Summarization
      Neural Extractive Text Summarization with Syntactic Compression
      Neural Text Summarization: A Critical Evaluation
      Reading Like HER: Human Reading Inspired Extractive Summarization
      Subtopic-driven Multi-Document Summarization
      Summary Cloze: A New Task for Content Selection in Topic-Focused Summarization
      Text Summarization with Pretrained Encoders
      The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization
      Transformer-based Model for Single Documents Neural Summarization

      posted in 顶会期刊
      1
      151****8705
    • 【征稿】ACM MM 2021 多媒体对抗机器学习主题Workshop

      以深度学习为代表的通用人工智能技术,在计算机视觉、语音识别、自然语言处理等智能多媒体方向上已经取得了巨大进展,并在公共安全、金融经济、国防安全等领域发挥了极其关键的作用。

      然而,由于现实应用场景的开放性,以大数据训练和经验性规则为基础的智能多媒体应用面临环境的动态变化、输入的不确定性、甚至是恶意攻击等问题,暴露出稳定性、安全性等方面的安全和隐私的隐患。对抗样本这种精心设计的、人类难以感知的微小噪音便可轻松实现对基于深度学习的智能多媒体模型进行攻击和误导,对其模型的安全性和数据的隐私性产生巨大挑战。近年来,国内外广泛意识到智能系统安全的重要性,并将其上升到行业、甚至国家战略层面。因此,如何进一步提升基于深度学习的智能多媒体模型应用的安全性,突破深度学习的安全性机理,成为解决当前深度学习模型与系统安全性并提升其可用性问题的核心。

      基于ACM MM 2021大会,本次AdvM Workshop关注于智能多媒体的安全与隐私,面向智能图像、文本、语音等相关子领域的深度学习技术安全鲁棒性、模型可解释性、数据隐私保护等深受关注的话题,以期促进智能多媒体的安全规范发展,推动技术进步和社会进步。本次workshop有幸邀请到了包括Alan Yuille、Xiaochun Cao、Bo Li、Cihang Xie等在内的领域大佬作为演讲嘉宾。我们的投稿截止日期为2021年8月8日(太平洋时间),所有录用论文都会收录在ACM MM的特别Proceeding中(EI索引),还有best paper awards,详情请关注主页https://advm-workshop-2021.github.io/。欢迎大家投稿!
      https://mmbiz.qpic.cn/mmbiz_jpg/s7YKINJYHDASVBibMsZBHJYsrNicshocfwWjWSibLTicd57SbqGEsRkpfkm4JvzFe6iaRNaGYicgpOb1El0hppTtlgfg/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

      posted in 顶会期刊
      1
      151****8705
    • 改一个随机种子,你的BERT就能更好!

      背景
      目前,预训练模型已经在自然语言处理领域被广泛地应用,已经在多个领域取得了极好的效果,并且刷新了多个自然语言处理任务的榜单。但是,由于预训练模型非常依赖于参数的随机初始化的过程,可能通过改变某个随机种子就可以提升任务的效果。因此,Google search团队再次对BERT进行重新训练(money is all you need!),共开源了25个采用不同的随机种子的BERT的checkpoint。
      实验证明,仅改变一个随机种子,就可以在多个任务上提升,同时,为了衡量不同随机种子/不同参数设定的预训练模型的效果,该团队提出了Multi-Bootstrap评测指标,对多种不同的参数设定/不同的随机种子进行预训练的模型进行了评估。
      论文题目:
      《The MultiBERTs: BERT Reproductions for Robustness Analysis》
      论文与代码链接
      https://arxiv.org/abs/2106.16163
      https://github.com/google-research/language/tree/master/language/multiberts
      实验环境与应用任务
      接下来,我们就来看看Google的研究人员是如何对这些不同随机种子的BERT进行训练与分析,我们需要先清楚整体的训练环境以及在评测的任务是什么。
      训练环境以及参数
      所有的模型的训练的模型结构与超参数均与原始的BERT相一致,采用BERT-base模型结构:12层,768维的词向量维度。共有两个预训练的目标:Masked language Modeling(预测被掩码的字,简称MLM)与NSP(预测下一句话是否是正确的,简称NSP),模型采用TPU进行训练,一共花费1728小时进行预训练,8小时进行微调。
      评测任务
      研究员大大们在GLUE(General Language Understanding Evaluation)评测集和SQuAD数据集上分别进行了实验。其中,分别在SQuAD v1.1和v2.0分别进行了实验,并且进行了分析。
      结果与分析
      接下来我们可以分析不同的随机种子在GLUE评测集与SQuAD数据集上的实验结果。

      上图为MultiBERTs(25个不同checkpoint的BERT)在GLUE评测集与SQuAD数据集上的结果。其中,虚线代表原始的BERT模型,其他的代表25个不同的checkpoint的BERT模型。在GLUE上,原始的BERT介于MultiBERTs的最大值与最小值之间,只有在QQP任务上,原始的BERT超越了所有的MultiBERTs模型。但是,在SQuAD数据集上,MultiBERTs全部超越了原始的BERT模型,这是一个十分有趣的点,或许在之后,大家可以选择不同的checkpoint进行微调,以此提高实验结果(感谢Google开源了所有的checkpoint)。
      目前,以上的结果均为预训练与微调阶段均采用相同的随机种子的结果,为了进一步研究随机种子对于模型的影响,本文对预训练与微调阶段均采用相同随机种子与不同随机种子进行了实验。

      其中,Same表示预训练与微调阶段采用相同的随机种子,Diff表示预训练与微调阶段采用不同的随机种子。从上图可得,仅仅只有MNLI任务中,微调阶段的不同随机种子产生的影响较大,其中MNLI(Multi-Genre Natural Language Inference)是由纽约大学发布的一个文本蕴含的任务数据集,在给定前提(Premise)下,需要判断假设(Hypothesis)是否成立。而HANS则是在2019年研究学者提出的另一个属于同任务的数据集,相比于原文的数据集,该数据集则是一个新领域的数据集,该数据集在原有的预训练模型上进行微调,则发现波动(Same-Diff)很大。
      如何衡量不同参数设定下的预训练模型的实验结果差异
      先前,我们已经得到了关于不同随种子的预训练模型对于结果的影响,但是,该如何衡量不同的随机种子带来的影响呢?研究员们提出了Multi-Bootstrap评测指标。该指标其实是基于Bootstrap算法设计的。
      Bootstrap算法
      该算法就是利用有限的样本经由多次重复抽样,建立起足以代表母体样本分布之新样本,在机器学习中解决了样本不足的问题。
      这么说可能有点抽象是不是看不懂?其实就是因为随机种子太多了,那么研究人员不可能对所有的随机种子都进行实验,因此通过采样的方式得到一系列随机种子对应的实验结果,之后通过对这一系列的结果进行平均与所有的随机种子的实验结果进行比较。
      看到这里就有疑问了!那所有的随机种子的结果该从哪里来呢?肯定是拿不到的,因此研究人员提出了一个新的想法:假设所有的随机种子只有100个,随即从这100个里面采样20个作为调研对象,那么是不是就可以得到随机种子与实验结果之间的关联了呢!
      明白了这一点之后,让我们来看这篇文章的公式,就会非常的清晰明了!我们将上述的例子一直贯穿下来:

      训练步数对实验结果的影响
      上述已经对随机种子与实验结果的影响阐述完成,但是,对于预训练模型来说,存在许多超参数对预训练模型存在影响,研究员们选取了训练步数对实验结果的影响进行研究,对相同随机种子的模型分别训练100万步与200万步进行实验,结果如下:

      从上图可以发现:只有在MNLI任务上,在相同的随机种子的情况下,200万步的BERT模型基本上都比100万步的BERT模型效果更好,
      总结
      这篇论文最大的亮点就是在于研究员们开源了25个不同随机种子checkpoint,并且进行了实验分析,或许我
      们接下来的实验可以尝试更换一个checkpoint,就能带来结果的提升。同时,提出的Multi-Bootstrap算法也给不同参数设定的预训练模型的效果提供了一个评价指标,在预训练模型大行其道的时代,这种评测指标才能让我们看到究竟是超参数带来的效果提升,还是改进模型结构带来的效果提升,更为重要!
      除此之外,近期也有其他的相关工作,如:《The curse of performance instability in analysis datasets: Consequences, source, and suggestions》与《Fine-tuning pretrained language models:Weight initializations, data orders, and early stopping.》均是相关的研究。

      posted in 顶会期刊
      1
      151****8705
    • RE: 【有奖话题NO.5】 训练等待中的日常爆料!仙友们是养生派?充实派?

      希望给我8张3090,让我一直训练。。。。

      posted in 有奖话题
      1
      151****8705
    • 【内推-实习】腾讯AI Lab视觉计算中心(Visual Computing Center)-实习招聘

      职位要求:
      1、能够快速上手视频理解、视频生成、Text to Video、Image Generation等方向的科研和项目;
      2、在cv相关领域具有优秀学术成果,A类一作数量多的同学优先考虑;
      3、良好的数据结构和算法基础,扎实的编程能力;
      4、能够承担项目科研推进工作、具备撰写相关领域论文的能力;
      5、能够长时间在深圳线下实习。

      感兴趣的同学请将简历发送至(paidaxingli@tencent.com),留下至少包含微信的联系方式,方便我们积极联系各位同学。

      posted in 校招社招
      1
      151****8705
    • 【AAAI2022】人工智能顶会论文征集正式开始


      AAAI 会议的目的是促进人工智能 (AI) 研究和人工智能研究人员、从业人员、科学家和相关学科工程师之间的科学交流。

      由于6-9月份之间没有更多的顶级会议,因此每年AAAI会议的提交量均是创纪录,ddl快来了,大家可以在gpushare上用更多的机器尽快跑出结果,开始写论文了!

      AAAI-22 相关时间点:

      2021年8月30日:提交摘要
      2021年9月8日:提交全文
      2021年10月1日:被NeurIPS拒稿后修改重投(摘要和全文)
      2021年10月15日:审稿第一阶段结果通知
      2021年11月29日:最终录用通知
      大会网站暂时没有给出是否有Author Response环节。各位读者可以等待第一次正式征稿后了解相关详情。
      网站:https://aaai.org/Conferences/AAAI-22/

      posted in 顶会期刊
      1
      151****8705
    • CCKS2021 面向保险领域的低资源文档信息抽取

      大赛概况

      阿里巴巴和中国人寿联合举办“面向保险领域的低资源文档信息抽取”评测任务,希望通过此次评测任务及开放的中文文档信息抽取数据集,助力中文文档信息抽取技术的发展及其商业化落地应用。本次评测面向真实业务场景下的商业文档理解需求,提供保险领域的少量标注数据和大量无标注数据,期望参与者能够充分利用文档格式信息,在低资源标注场景下完成“文档标题层级抽取”和“文档开放信息抽取”两个子任务。

      赛程安排

      本次大赛分为报名组队、初赛、复赛三个阶段,具体安排和要求如下:

      报名组队——————5月27日—6月25日
      初赛阶段——————5月31日—7月9日
      复赛阶段——————7月12日—8月13日

      报名组队与实名认证(2021年5月27日—6月25日)

      报名方式:5月27日阿里天池平台(https://tianchi.aliyun.com/)将开放本次比赛的组队报名、登录比赛官网,完成个人信息注册,即可报名参赛;

      选手可以单人参赛,也可以组队参赛。组队参赛的每个团队不能超过5人,每位选手只能加入一支队伍;

      选手需确保报名信息准确有效,组委会有权取消不符合条件队伍的参赛资格及奖励;

      选手报名、组队变更等操作截止时间为6月25日晚上23:59:59;同样,各队伍(包括队长及全体队伍成员)需要在6月25日晚上23:59:59前完成实名认证(认证入口:天池官网-右上角个人中心-认证-支付宝实名认证),未完成认证的参赛团队将无法进行后续的比赛;

      赛题背景

      随着知识图谱在各个行业的应用,使用信息抽取技术从文档中挖掘大规模图谱知识已经成为了一个研究热点。然而当前信息抽取任务多关注于从无结构化文本中抽取知识,忽略了文档中丰富的格式信息。同时,在真实的业务场景下,文档级信息抽取标注数据的获取成本十分高昂,现有信息抽取方法在少量标注样本下的表现性能不佳,已经成为阻碍行业知识图谱规模化应用的主要瓶颈之一。为此,阿里巴巴和中国人寿联合举办“面向保险领域的低资源文档信息抽取”评测任务,希望通过此次评测任务及开放的中文文档信息抽取数据集,助力中文文档信息抽取技术的发展及其商业化落地应用。

      本次评测面向真实业务场景下的商业文档理解需求,提供保险领域的少量标注数据和大量无标注数据,期望参与者能够充分利用文档格式信息,在低资源标注场景下完成“文档标题层级抽取”和“文档开放信息抽取”两个子任务。

      赛题描述

      输入:文档的PDF格式文件及对应的解析后文件

      示例:

      二、解析后的文件(部分,分别为word、 x0、y0、 x1、y1、 fontsize、fontname)

      子任务一:文档标题层级抽取

      输出:文档内所有的标题及其目录层级编号
      示例:

      {“1”, “保险合同构成”}
      {"2”, “投保范围”}
      {“3”, “保险期间和续保”}
      {“4”, “保险责任”}
      {“4.1”, “基本责任”}
      {“4.1.1”, “意外伤害身故责任”}
      注:
      当文档中标题无数字编号时,参赛者需根据文档生成对应的数字编号。

      子任务二:文档开放信息抽取

      输出:文档内以当前保险产品为头实体的所有属性-属性值对
      示例:

      {“保险合同构成”, “国寿e家吉祥送福综合意外伤害保险(2013版)合同(以下简称本合同)由保险单及所附国寿e家吉祥送福综合意外伤害保险(2013版)利益条款(以下简称本合同利益条款)、短期保险基本条款(以下简称本合同基本条款)、批注、附贴批单、投保单,以及与本合同有关的投保文件、声明和其他书面协议共同构成。”}
       {“投保范围”, “凡出生二十八日以上、七十周岁以下的身体健康者,均可作为被保险人,由具有完全民事行为能力的本人或对其具有保险利益的其他人作为投保人,向本公司投保本保险。”}
       {“保险期间和续保”, “本合同的保险期间最长为一年;除另有约定外,自本合同生效之日起至约定终止日二十四时止。
      投保人可于保险期间届满前或在本合同约定的交费宽限期内,经本公司同意后,向本公司交付续保保险费,本合同于保险期间届满的次日起延续有效。本合同可按上述方式续保至被保险人年满七十五周岁后的第一个生效对应日。
      本公司保留终止本合同续保的权利,并有权调整保险费收费标准。”}

      数据描述

      本次数据来自真实保险产品文档,由专业人员标注,训练集、验证集及测试集的说明如下:

      训练集:
      共包含50篇左右有标注和2000篇无标注的文档(下载链接),每篇文档都包含PDF格式的文档及其对应的解析后文件,用于竞赛模型训练。其中,有标注文档还带有额外的标签文件。
      验证集:
      共包含50篇左右有标注文档,用于竞赛模型训练和参数调试,此外该数据集也作为初赛的评测数据集。
      测试集:
      共包含100篇有标注文档,为本次评测的最终测试集。另外为了防止针对测试集的调试,数据中将会额外加入混淆数据。该部分数据在评测结束前一周发布。

      提交说明

      参赛队伍需要提交一个以results.json命名的结果文件,格式可参考"样例输出.json",其中product字段为对应的产品名(一个产品名对应一个输入文件),tid字段为标题编号,title为标题内容(属性),value为对应的属性值(此字段内容可为空),示例如下:

      [{
       “product”: “产品名”,
       “annotation”: [{
       “tid”: “标题编号”,
       “title”: “标题内容(属性)”,
       “value”: “属性值”
       }]
      }]

      评价指标

      本次评测采用调整后的精准率(Precision,P)、调整后的召回率(Recall, R)、F1值(F1-measure,F1)来评估文档信息抽取的效果:

      posted in 竞赛赞助
      1
      151****8705

    Latest posts made by 151****8705

    • 招生 | 2021 KAUST IVUL招收CV、DL、GraphML方向优秀硕、博、访问学生、博后、研究科学家

      阿卜杜拉国王科技大学
      发布于2021,招收入学/职时间为2022往后春/秋或者往后,长期有效。
      实验室简介

      IVUL(https://cemse.kaust.edu.sa/ivul)实验室是由Bernard Ghanem教授领导的人工智能实验室,虽然原名字是Image and Video Understanding Lab,但现在关注的领域已不局限于Image and Video,也有不少同学在做Graph,3D和交叉科学领域的数据。
      实验室研究主要关注于CV(CVPR/ICCV/ECCV)、ML(ICML/NeurIPS/ICLR)和Robotic(RSS/ICRA/CoRL)等会议,Bernard曾担任CVPR/ICCV/ICLR/AAAI领域主席。
      目前实验室研究主题主要包括但不限于以下三个方向:
      video understanding (e.g. activity detection, retrieval, and object tracking),
      computer vision for automation (e.g. 3D vision, autonomous navigation especially using simulation),
      tools/fundamentals of deep/machine learning (e.g. structured optimization, robustness and sensitivity, training strategies, and general theory)
      实验室发表的论文:https://cemse.kaust.edu.sa/ivul/ivul-publications

      图片

      一些数据集和开源项目:
      http://activity-net.org/
      https://tracking-net.org/
      https://www.deepgcns.org/
      导师主页

      http://www.bernardghanem.com/
      更多招人信息

      http://www.bernardghanem.com/openings

      简历投递方式
      发送邮件到bernard.ghanem [at] kaust.edu.sa

      Application at IVUL - [your name]。对GNN基础模型和科学领域应用、3D vision、Embedded AI、NAS等方向感兴趣的也可以邮件咨询我lightaime@gmail.com。

      posted in 校招社招
      1
      151****8705
    • 博士申请 | 代尔夫特理工大学助理教授杨杰老师招收博士生

      杨杰——代尔夫特理工大学
      代尔夫特理工大学助理教授杨杰老师招收博士生。
      图片
      导师简介

      杨杰老师的研究方向是Human-In-the-Loop Machine Learning,关注如何通过将机器学习系统的相关stakeholders involve到构建系统的过程中来,来搭建可靠可信的系统。加入TU Delft之前他曾在亚马逊(西雅图)工作,研发Alexa上的自然语言处理和推荐算法。

      他的工作常发表于信息系统与AI的国际顶级会议和期刊上,包括WWW,SIGIR,CIKM,TKDE,EMNLP,AAAI等。他每年担任十余个顶级会议的(高级)程序委员会委员和重要期刊的评审(e.g.,TOIS,TKDE,TiiS),同时是Human Computation和Frontiers in AI的编委。他的密切合作者包括来自信息系统核心community的学者,和来自各大公司(Google、Amazon、Facebook、MSR、IBM Waston)的研究人员。
      导师主页

      http://yangjiera.github.io/
      学校简介

      代尔夫特理工大学是荷兰历史最悠久、规模最大的理工大学,欧洲顶尖工科联盟IDEA联盟成员。其理工科在QS排名世界第15位,欧陆第3位。 成功申请的学生将加入Web Information Systems (WIS)课题组。WIS组的研究方向包括数据管理、知识工程、群体智能以及信息检索。其faculty成员在上述领域都有着国际声誉,常参与组织相关顶级会议如SIGMOD, SIGIR, WWW, CIKM等。
      岗位信息

      具体的课题描述,申请要求,和待遇见:https://www.academictransfer.com/en/301631/phd-position-in-human-in-the-loop-ai/

      简历投递方式
      发送邮件到j.yang-3@tudelft.nl

      posted in 校招社招
      1
      151****8705
    • 招生 | 香港城市大学CityU 机器学习、数据挖掘-全奖、联培PhD、访问学者学生

      赵翔宇——香港城市大学

      香港城市大学数据科学学院助理教授赵翔宇老师计划招收多名全奖博士生,2022年春季秋季入学均可。要求本科或硕士为理工科专业,有较强的数学和编程能力,发表过优秀论文的同学优先考虑。详见: http://www.cse.msu.edu/~zhaoxi35/openings.html
      HKPFS香港博士奖学金:欢迎大家推荐申请今年HKPFS (https://cerg1.ugc.edu.hk/hkpfs/index.html),每月26900奖学金+免学费+免住宿费+每年13500出差经费。
      内地准备读博/转博/博一学生:欢迎申请CityU联合培养博士项目,可以同时获得CityU博士学位。学生无需支付任何费用,在CityU期间每月获发奖学金17500+港币。
      图片

      导师简介

      赵翔宇是密歇根州立大学博士,师从汤继良教授。他将于2021年秋季加入香港城市大学(City University of Hong Kong)数据科学学院任助理教授。

      他目前的研究方向为数据挖掘、机器学习、深度学习及其在信息检索(推荐系统,广告及搜索引擎),城市计算(智慧城市和时空数据),社交网络,金融,教育,能源,健康医疗等领域的应用,以及理论强化学习/自动机器学习等。他在计算机顶级会议KDD、WWW、AAAI、SIGIR、ICDE等发表论文20余篇。曾获CCF-腾讯犀牛鸟基金,Criteo研究奖,Bytedance研究奖,AI华人新星百强等奖项。他多次担任顶级会议KDD、WWW、SIGIR、IJCAI中研讨会和教学讲座的组织者和演讲者,获得广泛关注和好评。博士期间曾在多家中美互联网企业从事研究工作,并保持紧密合作关系。
      导师主页

      http://www.cse.msu.edu/~zhaoxi35/

      学校简介

      香港城市大学是一所坐落于香港九龙塘的公立研究型大学。2021年QS世界大学排名第48名,QS建校未满50年最佳大学第4名,ARUW工程/技术/计算机科学香港地区第1名,泰晤士全球最国际化大学第1名。校园地处九龙塘商业区,港铁九龙塘站,背靠狮子山,眺望九龙半岛和维多利亚港。

      简历投递方式

      发送邮件到zhaoxi35@msu.edu

      posted in 校招社招
      1
      151****8705
    • 博士后招聘 | 华威大学何瑜岚教授课题组招聘自然语言处理方向博士后研究

      何瑜岚——华威大学

      华威大学何瑜岚教授课题组招聘自然语言处理方向博士后研究员,有自然语言处理、深度学习、知识图谱、事件抽取、图模型、生物医学问答等相关经验或论文发表的同学优先。该项目为UKRI资助的5年图灵AI项目“Event-Centric Framework for Natural Language Understanding”,旨在研究一种以事件表示为中心的自然语言理解方法,通过图模型和知识图谱赋予相关方法推理和理解的能力。课题组以往论文发表等信息见主页:https://warwick.ac.uk/fac/sci/dcs/research/nlp/
      Full-time, fixed-term contract for 24 months with possibility to extend for a further 12 months.
      Applications are invited for a Research Fellow position on the UKRI-funded Turing AI Fellowship project ‘Event-Centric Framework for Natural Language Understanding’ led by Prof. Yulan He. The 5-year project aims to develop a knowledge-aware and event-centric framework for natural language understanding, in which event graphs are built as reading progresses; event representations are learned with the incorporation of background knowledge; implicit knowledge is derived by performing reasoning over event graphs; and the comprehension model is developed with built-in interpretability and robustness against adversarial attacks.
      There will be three research fellows appointed in different stages of the project. For this post, the successful candidate will primarily focus on event hypergraph representation learning and knowledge-aware Question-Answering. They will work closely with various industrial partners including AstraZeneca, Google and Actable AI. They will also join the wider network of Turing AI fellows and the Alan Turing Institute, the national AI and Data Science institute in the UK. There will be opportunities to develop research profile, to travel to give demos and presentations, and to write academic papers.
      Candidates should hold a PhD degree in Computer Science or other relevant discipline. The successful candidate will possess skills in natural language processing and deep learning. Experience of knowledge graph, graph neural networks and/or biomedical QA would be beneficial.
      The starting date will be as soon as possible after the interview.
      Informal enquiries should be addressed to Professor Yulan He at Yulan.He@warwick.ac.uk.
      If you have not yet been awarded your PhD but are near submission or have recently submitted your PhD, any offers of employment will be made as Research Assistant on level 5 of the University grade structure (£30,497. Upon successful award of your PhD and evidence of this fact, you will be promoted to Research Fellow on the first point of level 6 of the University grade structure (£31,406 pa).
      Full details of the duties and selection criteria for this role can be found in the vacancy advert on the University of Warwick’s jobs pages. You will be routed to this when you click on the Apply button.

      简历投递方式
      申请链接:https://www.jobs.ac.uk/job/CIO019/research-fellow-104396-0821
      微信号:yilundier

      posted in 校招社招
      1
      151****8705
    • 改一个随机种子,你的BERT就能更好!

      背景
      目前,预训练模型已经在自然语言处理领域被广泛地应用,已经在多个领域取得了极好的效果,并且刷新了多个自然语言处理任务的榜单。但是,由于预训练模型非常依赖于参数的随机初始化的过程,可能通过改变某个随机种子就可以提升任务的效果。因此,Google search团队再次对BERT进行重新训练(money is all you need!),共开源了25个采用不同的随机种子的BERT的checkpoint。
      实验证明,仅改变一个随机种子,就可以在多个任务上提升,同时,为了衡量不同随机种子/不同参数设定的预训练模型的效果,该团队提出了Multi-Bootstrap评测指标,对多种不同的参数设定/不同的随机种子进行预训练的模型进行了评估。
      论文题目:
      《The MultiBERTs: BERT Reproductions for Robustness Analysis》
      论文与代码链接
      https://arxiv.org/abs/2106.16163
      https://github.com/google-research/language/tree/master/language/multiberts
      实验环境与应用任务
      接下来,我们就来看看Google的研究人员是如何对这些不同随机种子的BERT进行训练与分析,我们需要先清楚整体的训练环境以及在评测的任务是什么。
      训练环境以及参数
      所有的模型的训练的模型结构与超参数均与原始的BERT相一致,采用BERT-base模型结构:12层,768维的词向量维度。共有两个预训练的目标:Masked language Modeling(预测被掩码的字,简称MLM)与NSP(预测下一句话是否是正确的,简称NSP),模型采用TPU进行训练,一共花费1728小时进行预训练,8小时进行微调。
      评测任务
      研究员大大们在GLUE(General Language Understanding Evaluation)评测集和SQuAD数据集上分别进行了实验。其中,分别在SQuAD v1.1和v2.0分别进行了实验,并且进行了分析。
      结果与分析
      接下来我们可以分析不同的随机种子在GLUE评测集与SQuAD数据集上的实验结果。

      上图为MultiBERTs(25个不同checkpoint的BERT)在GLUE评测集与SQuAD数据集上的结果。其中,虚线代表原始的BERT模型,其他的代表25个不同的checkpoint的BERT模型。在GLUE上,原始的BERT介于MultiBERTs的最大值与最小值之间,只有在QQP任务上,原始的BERT超越了所有的MultiBERTs模型。但是,在SQuAD数据集上,MultiBERTs全部超越了原始的BERT模型,这是一个十分有趣的点,或许在之后,大家可以选择不同的checkpoint进行微调,以此提高实验结果(感谢Google开源了所有的checkpoint)。
      目前,以上的结果均为预训练与微调阶段均采用相同的随机种子的结果,为了进一步研究随机种子对于模型的影响,本文对预训练与微调阶段均采用相同随机种子与不同随机种子进行了实验。

      其中,Same表示预训练与微调阶段采用相同的随机种子,Diff表示预训练与微调阶段采用不同的随机种子。从上图可得,仅仅只有MNLI任务中,微调阶段的不同随机种子产生的影响较大,其中MNLI(Multi-Genre Natural Language Inference)是由纽约大学发布的一个文本蕴含的任务数据集,在给定前提(Premise)下,需要判断假设(Hypothesis)是否成立。而HANS则是在2019年研究学者提出的另一个属于同任务的数据集,相比于原文的数据集,该数据集则是一个新领域的数据集,该数据集在原有的预训练模型上进行微调,则发现波动(Same-Diff)很大。
      如何衡量不同参数设定下的预训练模型的实验结果差异
      先前,我们已经得到了关于不同随种子的预训练模型对于结果的影响,但是,该如何衡量不同的随机种子带来的影响呢?研究员们提出了Multi-Bootstrap评测指标。该指标其实是基于Bootstrap算法设计的。
      Bootstrap算法
      该算法就是利用有限的样本经由多次重复抽样,建立起足以代表母体样本分布之新样本,在机器学习中解决了样本不足的问题。
      这么说可能有点抽象是不是看不懂?其实就是因为随机种子太多了,那么研究人员不可能对所有的随机种子都进行实验,因此通过采样的方式得到一系列随机种子对应的实验结果,之后通过对这一系列的结果进行平均与所有的随机种子的实验结果进行比较。
      看到这里就有疑问了!那所有的随机种子的结果该从哪里来呢?肯定是拿不到的,因此研究人员提出了一个新的想法:假设所有的随机种子只有100个,随即从这100个里面采样20个作为调研对象,那么是不是就可以得到随机种子与实验结果之间的关联了呢!
      明白了这一点之后,让我们来看这篇文章的公式,就会非常的清晰明了!我们将上述的例子一直贯穿下来:

      训练步数对实验结果的影响
      上述已经对随机种子与实验结果的影响阐述完成,但是,对于预训练模型来说,存在许多超参数对预训练模型存在影响,研究员们选取了训练步数对实验结果的影响进行研究,对相同随机种子的模型分别训练100万步与200万步进行实验,结果如下:

      从上图可以发现:只有在MNLI任务上,在相同的随机种子的情况下,200万步的BERT模型基本上都比100万步的BERT模型效果更好,
      总结
      这篇论文最大的亮点就是在于研究员们开源了25个不同随机种子checkpoint,并且进行了实验分析,或许我
      们接下来的实验可以尝试更换一个checkpoint,就能带来结果的提升。同时,提出的Multi-Bootstrap算法也给不同参数设定的预训练模型的效果提供了一个评价指标,在预训练模型大行其道的时代,这种评测指标才能让我们看到究竟是超参数带来的效果提升,还是改进模型结构带来的效果提升,更为重要!
      除此之外,近期也有其他的相关工作,如:《The curse of performance instability in analysis datasets: Consequences, source, and suggestions》与《Fine-tuning pretrained language models:Weight initializations, data orders, and early stopping.》均是相关的研究。

      posted in 顶会期刊
      1
      151****8705
    • 【SIGIR-2021 Tutorial】新型信息检索排序模型:建模文档之间的依赖关系

      在刚刚举办的SIGIR 2021会议中,由中科院计算所庞亮研究员、中国人民大学徐君教授、犹他大学艾清遥博士进行了在线tutorial报告:Beyond Probability Ranking Principle: Modeling the Dependencies among Documents,探讨新型的信息检索排序模型。

      概率排序准则(Probability Ranking Principle,PRP)是排序的基本原则,该原则假设每个文档都有唯一且独立的概率来满足特定的信息需求。在过去,传统的启发式特征和大家了解的learning-to-rank都是遵循 PRP 原则设计的。此外,最近用深度学习来强化的一些排序模型,即“深度文本匹配(deep text matching)”,也遵循 PRP 原则。

      然而,PRP 并不是排序的最佳选择,因为在最近的许多排序任务中,每个文档都不是独立于其他文档的,例如伪相关反馈(pseudo relevance feedback)、交互式信息检索(interactive information retrieval)等。

      为了解决这个问题,排序模型的新趋势转向对文档之间的依赖关系进行建模。本教程中将对排名模型超越 PRP 原则的一些最新进展给出全面的综述。希望研究人员能专注于这一领域,一起推动信息检索领域的重大进步。

      本教程主要由三部分组成。首先,教程介绍了排序问题以及概率排序原理。然后介绍了 PRP 原则下的传统方法。最后,教程说明了 PRP 原理的局限性,并介绍了以序列化方式和全局方式对文档之间的依赖关系进行建模的最新工作。

      posted in 顶会期刊
      1
      151****8705
    • 清华刘洋:论文写作,信息为表,逻辑为骨,思想为心

      简介

      首先“信息为表”是指信息传递,即从读者角度看到的是论文本身;“逻辑为骨”是指信息的传递需要按照逻辑来进行组织;“思想为心”是指在论文中最本质最深层的应当是能够反映出作者的思想。

      其次,在写作的时候,我们要转变角度,一切从读者的角度出发,以读者为核心阐述工作,遵循的顺序是从信息->逻辑->论文中的思想。所以,在信息元素的布局中,我们需要信息的呈现符合读者的认知惯性:深入浅出、引人入胜;组织合理、逻辑严密、论证充分;尽量提高读者阅读时的愉悦感,从而快速获取认知;引导读者在接收信息时走一条“舒服”的路径。

      最后,针对如何精心布局,刘洋教授也提供了一些写作技巧:

      (1)摘要需要用语简单,让外行能看懂;
      (2)介绍部分需要有中心句和支撑句,同时行文逻辑严密、论证充分;
      (3)方法部分要掌握好使用案例(running example)这把利器,并且善用图或表;
      (4)实验设计部分需要先辅后主,采用公认的标准数据和当前最先进的系统,同时不辞辛劳,做到极致;
      (5)相关工作部分需要把握传承与创新。

      论文的写作过程,主要包括以下6个环节:(1)确定方向;(2)确定问题;(3)确定思路;(4)确定方法;(5)实验验证;(6)撰写论文。

      论文评审六大标准则是:思路新颖、影响重大、方法正确、对比合理、易于实现及可重复性,以及表达清晰。

      在整个论文撰写过程中,应当严格按照上述标准要求去执行。

      除此之外,对于一篇标准的优秀论文,还应当具备以下三个层次,分别是信息传递、逻辑组织、呈现中心思想。通俗来说就是:信息为表,逻辑为骨,思想为心。在阅读与写作中,三个层次的展现是完全不一样的。在写作过程中,应当一切从读者的角度出发,以读者为核心阐述工作。

      具体做法为:首先将论文作为载体,由作者向读者传递详细信息,在信息传递中须按照严密的逻辑顺序进行组织,最后能够从最本质和深层的角度反映出作者的思想。即:信息呈现是表象,逻辑是骨架,传递的思想则是它的心和灵魂。所以,一篇好的文章就应该遵循信息->逻辑->论文中的思想的顺序。

      而且,论文中信息元素的布局应当满足以下三点:

      1. 信息的呈现符合读者的认知惯性:深入浅出,引人入胜,让读者快速找到想要的信息。
      2. 尽量降低读者的理解难度:合理地综合使用信息元素,包括:图>曲线>表>正文>公式。
      3. 尽量提高读者阅读时的愉悦感:思想新颖、组织合理、逻辑严密,论证充分、文笔优美、排版美观。

      五大写作技巧

      摘要 ——— 用语简单,让外行能看懂

      摘要主要起到广告宣传的作用,在文章发表以后,读者一般根据标题和摘要来决定是否阅读。所以,摘要的写作技巧就是用简短的话语概括这项工作:用语要简单,让外行能看懂。在摘要中不能出现很专业的术语或者数学符号。正确摘要的写作方法如下:首先,阐述问题是什么,即需要解决的问题;其次,这项工作具体做了哪些事情;然后,简要介绍方法和模型;最后,列出这项工作的贡献,表明该项工作具有一定的价值。

      介绍 ——— 逻辑严密,论证充分

      介绍部分是一篇论文最难写的地方,既不能用数学公式进行纯粹说理,而且还需要逻辑性非常强。介绍部分写作的最高境界是:审稿人通过只看介绍部分,就已经知道这项工作的具体内容和方法,甚至会直接开始复现该论文以此来进行论证。因此,要达到这样的境界,在介绍部分就需要对这项工作的必要性和重要性进行充分详细的论证,获取审稿人的认同并吸引审稿人往下阅读。所以,这整个部分的行文应当逻辑严密,论证充分以及有具有信服力的论据支撑。下面我们主要给出一些具体做法:

      (1)说明问题是什么;简单罗列前人工作,描述我们的工作;
      (2)目前最好的工作面临什么挑战;我们的方法能否解决或者缓解上述挑战(更加可取);
      (3)每个段落需要有论断性的中心句,其余部分都是支撑句, 并围绕中心句展开论证,前人工作的具体数据需要进行详细的记录,支撑句之间可分类组织,段尾可以加上衔接句。(注意:支撑句之间要论证严密)

      最后,介绍部分的写作还可结合以下技巧做进一步完善:

      (1)首页放置图或者表, 让按照顺序看图和表就能理解论文中的主要思想;
      (2)直接列出这项工作所做出的贡献;
      (3)在信息元素的组织过程中,应当选择优先选择读者易理解度高的信息元素;
      (4)精心对信息元素布局,引导读者在接收信息时走一条“舒服”的路径;

      方法 ——— 善于使用Example(案例)这把利器

      方法其实也是论文比较核心的一个部分,在这部分的具体做法是:

      (1)首先介绍背景知识。这样可以降低读者阅读时的理解难度,有利于对介绍部分的论证做更详细的解释,有利于对比baseline(基准)和你的方法。
      (2)使用案例是一把利器:全篇可以统一使用一个核心的example (案例)来阐释你的方法,并且围绕该案例进行展开描述,这样审稿人能更舒服、更快速了解这项工作的核心思想。
      (3)注意方法描述的逻辑顺序,要掌握描述的准确性和形式化能力,具体操作是:首先给案例;然后通过案例分析,用通俗语言描述文章中的思想;最后进行严格数学上的形式化描述。

      实验 ——— 先辅后主,不辞辛劳,做到极致

      实验一定要使用公认的标准数据和当前最先进的系统。在一篇论文中需要进行充分的实验论证,通常实验的顺序应采取先辅后主,这样可以通过辅助实验来确定超参数的影响;并且通过进行一系列显著性检验,最后论证主实验(测试集)的效果会显著超过baseline(基准)。

      整个实验过程要不辞辛劳,做到极致。针对一些实验表格的设计,首先应当遵循读者的阅读顺序摆放,一般是从上到下,从左到右,可以将baseline(基准)放在上,方法放在下面,最终实验结果统一放在最后一列(行);其次,对复杂的表格要进行单线和双线的分区划分;最后在使用图的过程,曲线上下摆和右上角的顺序需一致,在图的Caption(描述)中尽可能给出充分的信息,让读者根据图就能知道具体内容。

      相关工作 ——— 把握传承与创新

      在描述相关工作时:既要准确的评价前人的工作,还需要对前人的思想做拓展,同时提出具有创新性的想法。具体做法如下所示:

      1. 向审稿人显示你对本领域具有全面深刻的把握。
      2. 通过与前人工作的对比,凸显这项工作的创新性。
      3. 为读者梳理领域的发展脉络,从而获得全局的认识。

      工具应用与扩展

      在论文写作过程中,这里提供一些常用的实用工具以及平时练习写作的一些意见。

      首先,强烈建议用LaTex软件代替WordBibtex来自动生成参考文献列表,使用MetaPost来进行编程画矢量图;

      在论文写作时间管理上:最好在截稿前一个月开始写,每隔两天改一次,在写作期间,可以听取不同读者的反馈意见,专家的专业意见以及非专家的反馈意见来打破信息壁垒;

      最后,面对每一篇论文的撰写,我们需要写到极致,应当把写论文这项工作当做一个完美精致的艺术品来对待。

      针对平时如何练习写论文,这里提供以下5点建议:

      1. 研读和剖析领域公认的经典范文,学习写作技巧,并进行“模拟写作”。
      2. 熟练掌握范文技巧,在写作形式和图表运用上要比较规范。
      3. 平时对研究的论文,多做笔记。
      4. 认真做好组会报告,练习和提高professional presentation(专业的表达)能力。
      5. 在投稿和写作过程中,多听取同学们,导师和审稿人的意见。

      总结

      科研工作不仅仅是写作,在日常科研生活中,视野、品位、态度、技能都是非常重要的。写论文本质是分享思想,呈现信息。在撰写论文过程中,信息的呈现需符合读者的认知惯性,全心全意为读者服务,降低阅读难度,提高读者阅读时的愉悦感。细节决定成败,不要本末倒置,需牢记创新至上,技法为辅。

      论文不仅仅是写作,它需要视野(Vision)来把握历史脉络,捕捉时机;需要品味(Taste)来提取智慧;需要态度(Attitude)来治学严谨;需要技能(Skills)来严格训练,熟能生巧。

      posted in 顶会期刊
      1
      151****8705
    • 预训练语言模型论文分类整理
      1. 引言

      近年来,以 BERT 和 GPT 系列为代表的大规模预训练语言模型(Pre-trained Language Model, PLM)在 NLP 的各个领域取得了巨大成功。本文整理了自 BERT 和 GPT 诞生以来与 PLM 相关的论文,根据引用数筛选出163篇具有代表性的工作,并按照综述、基准数据集、PLM的设计、PLM的分析、高效的PLM和PLM的使用六大类型进行了初步划分。
      本文整理的论文列表已经同步更新到 GitHub,也会进行持续的更新,欢迎大家关注和 Star。
      https://github.com/RUCAIBox/PLMPapers
      本文尽可能地在每篇论文的后面附上了 PDF 链接、代码实现和项目主页,以方便读者进一步了解相关工作。

      1. 综述
        “Pre-trained models for natural language processing: A survey”. Science China Technological Sciences(2020)
        “Which *BERT? A Survey Organizing Contextualized Encoders”. EMNLP(2020)
        “A Primer in BERTology: What We Know About How BERT Works”. TACL(2020)
        “From static to dynamic word representations: a survey”. International Journal of Machine Learning and Cybernetics(2020)
        “Overview of the Transformer-based Models for NLP Tasks”. 2020 15th Conference on Computer Science and Information Systems (FedCSIS)
        “A Survey on Contextual Embeddings”. arXiv(2020)
        “The NLP Cookbook: Modern Recipes for Transformer Based Deep Learning Architectures”. IEEE Access(2021)
        “Pre-Trained Models: Past, Present and Future”. arXiv(2021)
        “A Survey of Transformers”. arXiv(2021)

      2. 基准数据集

      XNLI: “XNLI: Evaluating Cross-lingual Sentence Representations”. EMNLP(2018)
      GLUE: “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”. ICLR(2019)
      SuperGLUE: “SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems”. NeurIPS(2019)
      CLUE: “CLUE: A Chinese Language Understanding Evaluation Benchmark”. COLING(2020)
      XTREME: “XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization”. ICML(2020)
      XGLUE: “XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation”. EMNLP(2020)
      DialoGLUE: “DialoGLUE: A Natural Language Understanding Benchmark for Task-Oriented Dialogue”. arXiv(2020)

      1. PLM的设计

      4.1 通用设计

      GPT: “Improving Language Understanding by Generative Pre-Training”. OpenAI(2018)
      GPT-2: “Language Models are Unsupervised Multitask Learners”. OpenAI(2019)
      BERT: “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. NAACL(2019)
      XLNet: “XLNet: Generalized Autoregressive Pretraining for Language Understanding”. NeurIPS(2019)
      SBERT: “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”. ACL(2019)
      UniLM: “Unified Language Model Pre-training for Natural Language Understanding and Generation”. NeurIPS(2019)
      MASS: “MASS: Masked Sequence to Sequence Pre-training for Language Generation”. ICML(2019)
      Chinese-BERT-wwm: “Pre-Training with Whole Word Masking for Chinese BERT”. arXiv(2019)
      “Cloze-driven Pretraining of Self-attention Networks”. EMNLP(2019)
      “BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model”. Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
      GPT-3: “Language Models are Few-Shot Learners”. arXiv(2020)
      T5: “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”. JMLR(2020)
      BART: “BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension”. ACL(2020)
      Poly-encoders: “Poly-encoders: Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring”. ICLR(2020)
      SpanBERT: “SpanBERT: Improving Pre-training by Representing and Predicting Spans”. TACL(2020)
      ERNIE 2.0: “ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding”. AAAI(2020)
      SemBERT: “Semantics-Aware BERT for Language Understanding”. AAAI(2020)
      “Leveraging Pre-trained Checkpoints for Sequence Generation Tasks”. TACL(2020)
      ProphetNet: “ProphetNet: Predicting Future N-gram for Sequence-to-SequencePre-training”. EMNLP(2020)
      UniLMv2: “UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training”. ICML(2020)
      MacBERT: “Revisiting Pre-Trained Models for Chinese Natural Language Processing”. EMNLP(2020)
      MPNet: “MPNet: Masked and Permuted Pre-training for Language Understanding”. arXiv(2020)
      DEBERTA: “DeBERTa: Decoding-enhanced BERT with Disentangled Attention”. ICLR(2021)
      PALM: “PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation”. EMNLP(2020)
      4.2 知识增强

      ERNIE(Baidu): “ERNIE: Enhanced Representation through Knowledge Integration”. arXiv(2019)
      KnowBert: “Knowledge Enhanced Contextual Word Representations”. EMNLP(2019)
      ERNIE(Tsinghua): “ERNIE: Enhanced Language Representation with Informative Entities”. ACL(2019)
      COMET: “COMET: Commonsense Transformers for Automatic Knowledge Graph Construction”. ACL(2019)
      K-BERT: “K-BERT: Enabling Language Representation with Knowledge Graph”. AAAI(2020)
      WKLM: “Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model”. ICLR(2020)
      LUKE: “LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention”. EMNLP(2020)
      K-Adapter: “K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters”. ICLR(2021)
      KEPLER: “KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation”. TACL(2021)
      4.3 多语言

      XLM: “Cross-lingual Language Model Pretraining”. arXiv(2019)
      “Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond”. TACL(2019)
      UDify: “75 Languages, 1 Model: Parsing Universal Dependencies Universally”. EMNLP(2019)
      Unicoder: “Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks”. EMNLP(2019)
      XLM-R: “Unsupervised Cross-lingual Representation Learning at Scale”. ACL(2020)
      “Multilingual Alignment of Contextual Word Representations”. ICLR(2020)
      mBART: “Multilingual Denoising Pre-training for Neural Machine Translation”. TACL(2020)
      mT5: “mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer”. NAACL(2021)
      InfoXLM: “InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training”. NAACL(2021)
      4.4 多模态

      ViLBERT: “ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”. NeuralIPS(2019)
      LXMERT: “LXMERT: Learning Cross-Modality Encoder Representations from Transformers”. EMNLP(2019)
      VideoBERT: “VideoBERT: A Joint Model for Video and Language Representation Learning” ICCV(2019)
      MulT: “Multimodal Transformer for Unaligned Multimodal Language Sequences”. ACL(2019)
      VisualBERT: “VisualBERT: A Simple and Performant Baseline for Vision and Language”. arXiv(2019)
      B2T2: “Fusion of Detected Objects in Text for Visual Question Answering”. EMNLP(2019)
      VL-BERT: “VL-BERT: Pre-training of Generic Visual-Linguistic Representations”. ICLR(2020)
      Unicoder-VL: “Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training”. AAAI(2020)
      VLP: “Unified Vision-Language Pre-Training for Image Captioning and VQA”. AAAI(2020)
      UNITER: “UNITER: UNiversal Image-TExt Representation Learning”. ECCV(2020)
      Oscar: “Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks”. ECCV(2020)
      “12-in-1: Multi-Task Vision and Language Representation Learning”. CVPR(2020)
      ActBERT: “ActBERT: Learning Global-Local Video-Text Representations”. CVPR(2020)
      VLN: “Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks”. CVPR(2020)
      VILLA: “Large-Scale Adversarial Training for Vision-and-Language Representation Learning”. arXiv(2020)
      ImageBERT: “ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data”. arXiv(2020)
      ALIGN: “Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision”. ICML(2021)
      ClipBERT: “Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling”. CVPR(2021)
      DALL·E: “Zero-Shot Text-to-Image Generation”. arXiv(2021)
      CLIP: “Learning Transferable Visual Models From Natural Language Supervision”. arXiv(2021)
      4.5 信息检索

      ORQA: “Latent Retrieval for Weakly Supervised Open Domain Question Answering”. ACL(2019)
      REALM: “REALM: Retrieval-Augmented Language Model Pre-Training”. arXiv(2020)
      RAG: “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”. NeurIPS(2020)
      DPR: “Dense Passage Retrieval for Open-Domain Question Answering”. EMNLP(2020)

      1. PLM的分析

      5.1 知识

      “What Does BERT Look at? An Analysis of BERT’s Attention”. BlackBoxNLP(2019)
      “BERT Rediscovers the Classical NLP Pipeline”. ACL(2019)
      “How Multilingual is Multilingual BERT?”. ACL(2019)
      “A Structural Probe for Finding Syntax in Word Representations”. NAACL(2019)
      “Language Models as Knowledge Bases?”. EMNLP(2019)
      “What Does BERT Learn about the Structure of Language?”. ACL(2019)
      “Linguistic Knowledge and Transferability of Contextual Representations”. NAACL(2019)
      “Assessing BERT’s Syntactic Abilities”. arXiv(2019)
      “Probing Neural Network Comprehension of Natural Language Arguments” ACL(2019)
      “How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings”. EMNLP(2019)
      “Visualizing and Measuring the Geometry of BERT”. NeurIPS(2019)
      “Designing and Interpreting Probes with Control Tasks”. EMNLP(2019)
      “Open Sesame: Getting inside BERT’s Linguistic Knowledge”. BlackboxNLP(2019)
      “What do you learn from context? Probing for sentence structure in contextualized word representations”. ICLR(2019)
      “Commonsense Knowledge Mining from Pretrained Models”. EMNLP(2019)
      “Do NLP Models Know Numbers? Probing Numeracy in Embeddings”. EMNLP(2019)
      “On the Cross-lingual Transferability of Monolingual Representations”. ACL(2020)
      “Cross-Lingual Ability of Multilingual BERT: An Empirical Study”. ICLR(2020)
      “What BERT Is Not: Lessons from a New Suite of Psycholinguistic Diagnostics for Language Models”. TACL(2020)
      “How Much Knowledge Can You Pack Into the Parameters of a Language Model?”. EMNLP(2020)
      “How Can We Know What Language Models Know?”. TACL(2020)
      “oLMpics-On What Language Model Pre-training Captures”. TACL(2020)
      “Information-Theoretic Probing with Minimum Description Length”. EMNLP(2020)
      “Inducing Relational Knowledge from BERT”. AAAI(2020)
      AutoPrompt: “AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts”. EMNLP(2020)
      “Emergent linguistic structure in artificial neural networks trained by self-supervision”. PNAS(2020)
      “Evaluating Commonsense in Pre-Trained Language Models”. AAAI(2020)
      “Inducing Relational Knowledge from BERT”. AAAI(2020)
      5.2 鲁棒性

      “Universal Adversarial Triggers for Attacking and Analyzing NLP”. EMNLP(2019)
      “Pretrained Transformers Improve Out-of-Distribution Robustness”. ACL(2020)
      BERT-ATTACK: “BERT-ATTACK: Adversarial Attack Against BERT Using BERT”. EMNLP(2020)
      “Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment”. AAAI(2020)
      5.3 稀疏性

      “Are Sixteen Heads Really Better than One?”. NeurIPS(2019)
      “Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned”. ACL(2019)
      “Revealing the Dark Secrets of BERT”. EMNLP(2019)
      “The Lottery Ticket Hypothesis for Pre-trained BERT Networks”. NeurIPS(2020)
      “When BERT Plays the Lottery, All Tickets Are Winning”. EMNLP(2020)
      5.4 其他

      “Scaling Laws for Neural Language Models”. arXiv(2020)
      “Extracting Training Data from Large Language Models”. arXiv(2020)

      1. 高效的PLM

      6.1 模型训练

      RoBERTa: “RoBERTa: A Robustly Optimized BERT Pretraining Approach”. arXiv(2019)
      “Efficient Training of BERT by Progressively Stacking”. ICML(2019)
      Megatron-LM: “Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism”. arXiv(2019)
      ELECTRA: “ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators”. ICLR(2020)
      “Large Batch Optimization for Deep Learning: Training BERT in 76 minutes”. ICLR(2020)
      GShard: “GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding”. arXiv(2020)
      Admin: “Understanding the Difficulty of Training Transformers”. EMNLP(2020)
      ZeRO: “ZeRO: Memory optimizations Toward Training Trillion Parameter Models”. SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
      Switch Transformers: “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity”. arXiv(2021)
      6.2 模型压缩

      DistilBERT: “DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter”. arXiv(2019)
      PKD: “Patient Knowledge Distillation for BERT Model Compression”. EMNLP(2019)
      “Distilling Task-Specific Knowledge from BERT into Simple Neural Networks”. arXiv(2019)
      Q8BERT: “Q8BERT: Quantized 8Bit BERT”. 5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
      ALBERT: “ALBERT: A Lite BERT for Self-supervised Learning of Language Representations”. ICLR(2020)
      TinyBERT: “TinyBERT: Distilling BERT for Natural Language Understanding”. EMNLP(2020)
      Layerdrop: “Reducing Transformer Depth on Demand with Structured Dropout”. ICLR(2020)
      Q-BERT: “Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT”. AAAI(2020)
      MobileBERT: “MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices”. ACL(2020)
      “Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning”. 5th Workshop on Representation Learning for NLP(2020)
      MiniLM: “MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers”. arXiv(2020)
      FastBERT: “FastBERT: a Self-distilling BERT with Adaptive Inference Time”. ACL(2020)
      DeeBERT: “DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference”. ACL(2020)

      1. PLM的使用

      7.1 两阶段

      “Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-data Tasks”. arXiv(2018)
      “How to Fine-Tune BERT for Text Classification?”. CCL(2019)
      “Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks”. ACL(2020)
      “Intermediate-Task Transfer Learning with Pretrained Language Models: When and Why Does It Work?”. ACL(2020)
      7.2 多任务

      MT-DNN: “Multi-Task Deep Neural Networks for Natural Language Understanding”. ACL(2019)
      “BAM! Born-Again Multi-Task Networks for Natural Language Understanding”. ACL(2019)
      “Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding”. arXiv(2019)
      7.3 Adapter

      “BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning”. ICML(2019)
      Adapter: “Parameter-Efficient Transfer Learning for NLP”. ICML(2019)
      7.4 Prompt

      PET: “Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference”. EACL(2021)
      “It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners”. NAACL(2021)
      “Prefix-Tuning: Optimizing Continuous Prompts for Generation”. arXiv(2021)
      LM-BFF: “Making Pre-trained Language Models Better Few-shot Learners”. ACL(2021)
      “What Makes Good In-Context Examples for GPT-3?”. arXiv(2021)
      “The Power of Scale for Parameter-Efficient Prompt Tuning”. arXiv(2021)
      7.5 其他

      “To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks”. RepL4NLP(2019)
      “An Embarrassingly Simple Approach for Transfer Learning from Pretrained Language Models”. NAACL(2019)
      “Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping”. arXiv(2020)
      SMART: “SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization”. EMNLP(2020)
      “Revisiting Few-sample BERT Fine-tuning”. ICLR(2021)

      posted in 顶会期刊
      1
      151****8705
    • 百度凤巢模型策略团队(MODEL组)校招提前批招聘

      团队介绍:
      负责广告变现中核心的广告点击率、转化率建模预估。
      利用大规模机器学习技术, 持续探索模型技术在广告粗排/精排优选、转化auto-bidding、行业转化提效等业务场景的应用,优化客户投放效果,提升平台变现效率。
      数十年来,凤巢模型团队作为享誉业界的硬核技术团队,数次引领工业界模型技术浪潮。2008年,首次在业内将大规模离散模型应用到广告排序。13年,国内首次将深度学习引入产业界。15年,大规模离散DNN在国内首次落地。18年,开启GPU在大规模离线模型中的应用。以abacus为代表的模型训练框架影响了几乎所有互联网公司模型团队。21年初,Gate、量化等多篇核心论文产出。团队曾先后3次斩获百度最高荣誉-百度最高奖。

      招聘岗位:北京/上海 - 机器学习算法工程师
      招聘要求:
      2022届应届毕业生,本科及以上学历。
      具有以下一个或多个领域的理论背景和实践经验:机器学习//深度学习/数据挖掘/自然语言处理
      悉JAVA/C++等语言编程,有一定编程经验。了解至少一门脚本语言,如python,linux shell等
      能胜任在linux操作系统上工作
      熟悉网络编程、多线程、分布式编程技术,对数据结构和算法设计有较为深刻的理解
      良好的逻辑思维能力,对数据敏感,能够发现关键数据、抓住核心问题
      较强的沟通能力和逻辑表达能力,具备良好的团队合作精神和主动沟通意识

      虚位以待。简历发送shenxing01@baidu.com

      posted in 校招社招
      1
      151****8705
    • 2022年美团校园招聘北斗

      2022年美团校园招聘北斗已经开始,欢迎大家关注,很乐意帮大家推荐相关职位、解答疑惑,也欢迎投递我们组(AutoML,https://github.com/Meituan-AutoML)。

      (美团智慧交通平台/视觉智能中心)
      地点: 北京市朝阳区中交隧道
      岗位职责:

      1. 参与AutoML、高效率网络设计、通用分割、检测、3D点云、Vision Transformer、模型压缩、无监督、多模态融合等算法研发。
      2. 参与相关算法在无人驾驶、无人配送场景的落地。
      3. 参与顶会论文撰写和专利申请。

      岗位要求:

      1. 熟练使用主流深度学习框架(如pytorch/mxnet/caffe/tensorflow)中的一种或多种。
      2. 熟悉高效率网络设计、通用分割、检测、3D点云、视觉 Transformer、模型压缩、无监督、多模态融合等至少两项。
      3. 了解AutoML相关算法,包括但不限于HPO、网络结构搜索、自动数据增强、模型压缩等。
      4. 熟悉常见的视觉任务(分类、分割、检测)。
      5. 具备良好的编程基础和代码风格以及扎实的数据结构基础。

      具有以下者优先:

      1. 有深度学习CCF A类论文发表经验。
      2. 有国际视觉比赛并获得Top3名次。

      团队优势:

      团队承接各类公司核心算法业务,深耕计算机视觉前沿领域,在业内有持续影响力,团队成员代表作品有 FCOS,CTPN,BoxInst,FairNAS,FairDARTS,CPVT,Twins等。

      有意者请将简历发送至 chuxiangxiang@meituan.com

      posted in 校招社招
      1
      151****8705