Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    【AutoBERT-zero】模型预训练

    技术交流
    2
    2
    60
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 183****0229
      183****0229 last edited by 183****0229

      上周看了一篇论文 https://arxiv.org/pdf/2107.07445 ,然后自己想着照着里面的模型个搭建一下模型,锻炼下自己模型复现的能力,

      模型架构


      light conv 参考了pytorch/fairseq的实现。
      attention部分主要参考了huggingface/transformers的实现。

      模型效果


      可以发现该模型的base效果就超过的BERT-large,可见该模型的效果很强啊。

      个人实验

      • RTX3090
      • 训练了3天
      • 100W步
      • batch size 128
      • lr 2e-4
      • openwebtext数据集
      • max length 512


      感觉实际跑出来的效果不怎么好,没有之前分享的electra-roformer效果好。可能模型复现的时候存在着一定的问题。

      个人pytorch复现

      https://github.com/JunnYu/AutoBERT-Zero-pytorch

      1 Reply Last reply Reply Quote 2
      • Alice_恒源云
        Alice_恒源云 last edited by

        @183-0229 在 【AutoBERT-zero】模型预训练 中说:

        可能模型复现的时候存在着一定的问题。

        老教授说话模式

        1 Reply Last reply Reply Quote 0
        • First post
          Last post