【AutoBERT-zero】模型预训练
-
上周看了一篇论文 https://arxiv.org/pdf/2107.07445 ,然后自己想着照着里面的模型个搭建一下模型,锻炼下自己模型复现的能力,
模型架构
light conv 参考了pytorch/fairseq的实现。
attention部分主要参考了huggingface/transformers的实现。模型效果
可以发现该模型的base效果就超过的BERT-large,可见该模型的效果很强啊。个人实验
- RTX3090
- 训练了3天
- 100W步
- batch size 128
- lr 2e-4
- openwebtext数据集
- max length 512
感觉实际跑出来的效果不怎么好,没有之前分享的electra-roformer效果好。可能模型复现的时候存在着一定的问题。
个人pytorch复现
-