【1】使用pytorch_lightning+transformers+torchmetric+datasets进行文本分类
-
1. 环境信息
- pytorch 1.8.1
- python 3.8.1
- cuda 11.1
2. 结果展示
代码 预训练权重 Accuracy 备注 simpletransformers hfl/chinese-roberta-wwm-ext 66.85% 参考之前文章的训练结果 本文 bert-base-chinese 66.56% 使用bert-base-chinese预训练权重 本文 junnyu/roformer_chinese_base 67.52% 使用junnyu/roformer_chinese_base预训练权重 本文 hfl/chinese-roberta-wwm-ext 66.83% 使用hfl/chinese-roberta-wwm-ext预训练权重 本文 hfl/chinese-xlnet-base 66.8% 使用hfl/chinese-xlnet-base预训练权重 本文 junnyu/roformer_chinese_base 62.6% 【存在错误】使用bert-base-chinese的vocab+junnyu/roformer_chinese_base预训练权重 3. 使用pytorch_lightning+transformers+torchmetric+datasets进行文本分类
# 切换路径 cd /hy-tmp # 下载代码 git clone https://hub.fastgit.org/junnyu/hy_tutorial.git cd hy_tutorial # 解压 unzip tnews_classfication_pl.zip cd tnews_classfication_pl # 安装依赖 pip install -r requirements.txt
4. 使用bert-base-chinese训练
bash train.sh
5. 使用junnyu/roformer_chinese_base预训练模型
bash train_roformer.sh
6. 使用hfl/chinese-roberta-wwm-ext预训练模型
bash train_roberta.sh
7. 其他:
使用bert-base-chinese的分词+roformer权重训练得到的结果(虽然存在错误,但结果也有60多的准确率)
8. To be continued 接下来的几篇文章将详细介绍训练代码
-
@183-0229 写的很详细