推荐一些好用的库【NLP】
-
推荐一些好用的库:
-
1.模型 transformers
pip install transformers
Transformers: State-of-the-art Natural Language Processing for Pytorch, TensorFlow, and JAX.
这个库从2018年开始就存在了,刚开始的时候是叫pytorch_pretrained_bert,然后改名成了pytorch_transformer,最后改名成这个transformers。
对于刚接触pytorch和python的小伙伴,推荐读一下pytorch_pretrained_bert的代码,因为现在transformers库的代码越来越复杂,封装了越来越多的东西,对新手不怎么友好。 -
2.训练框架 pytorch-lightning
pip install pytorch-lightning
The lightweight PyTorch wrapper for high-performance AI research. Scale your models, not the boilerplate.
这个库把研究代码与工程代码相分离,还将PyTorch代码结构化,更加直观的展现数据操作过程。
这样,更加易于理解,不易出错,本来很冗长的代码一下子就变得轻便了,对AI研究者十分的友好。 -
3.指标 torchmetrics
pip install torchmetrics
Machine learning metrics for distributed, scalable PyTorch applications.
TorchMetrics 是 25 多个 PyTorch 指标实现的集合,是一个易于使用的 API,用于创建自定义指标。它提供:标准化接口,提高重现性、减少样板、批量自动累积、针对分布式训练优化的指标、多台设备间自动同步。 -
4.数据集 datasets
pip install datasets
The largest hub of ready-to-use NLP datasets for ML models with fast, easy-to-use and efficient data manipulation tools.
适用于大型数据集:Datasets库可以将用户从 RAM 内存限制中解放出来,所有数据集都使用高效的零序列化成本后端 (Apache Arrow) 进行内存映射。
智能缓存:不需要重复处理数据集。
轻量级和快速的透明和 pythonic API(多处理/缓存/内存映射)。
兼容性:与 NumPy、pandas、PyTorch、Tensorflow 2 和 JAX 的内置互操作性。
总结:
- 关于数据读取和处理可以使用huggingface的datasets库进行高效的处理。
- 关于训练框架可以使用pytorch-lightning库。
- 关于指标可以使用torchmetric库。
- 关于模型可以使用transformers库(预训练模型相关)。
TODO:
接下来的几篇文章将分别介绍这四个库的使用方法,最终将结合使用这四个库完成一个文本分类任务。
-
-