Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    推荐一些好用的库【NLP】

    技术交流
    2
    2
    56
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 183****0229
      183****0229 last edited by 183****0229

      推荐一些好用的库:

      • 1.模型 transformers
        pip install transformers
        🤗Transformers: State-of-the-art Natural Language Processing for Pytorch, TensorFlow, and JAX.
        这个库从2018年开始就存在了,刚开始的时候是叫pytorch_pretrained_bert,然后改名成了pytorch_transformer,最后改名成这个transformers。
        对于刚接触pytorch和python的小伙伴,推荐读一下pytorch_pretrained_bert的代码,因为现在transformers库的代码越来越复杂,封装了越来越多的东西,对新手不怎么友好。

      • 2.训练框架 pytorch-lightning
        pip install pytorch-lightning
        The lightweight PyTorch wrapper for high-performance AI research. Scale your models, not the boilerplate.
        这个库把研究代码与工程代码相分离,还将PyTorch代码结构化,更加直观的展现数据操作过程。
        这样,更加易于理解,不易出错,本来很冗长的代码一下子就变得轻便了,对AI研究者十分的友好。

      • 3.指标 torchmetrics
        pip install torchmetrics
        Machine learning metrics for distributed, scalable PyTorch applications.
        TorchMetrics 是 25 多个 PyTorch 指标实现的集合,是一个易于使用的 API,用于创建自定义指标。它提供:标准化接口,提高重现性、减少样板、批量自动累积、针对分布式训练优化的指标、多台设备间自动同步。

      • 4.数据集 datasets
        pip install datasets
        🤗 The largest hub of ready-to-use NLP datasets for ML models with fast, easy-to-use and efficient data manipulation tools.
        适用于大型数据集:Datasets库可以将用户从 RAM 内存限制中解放出来,所有数据集都使用高效的零序列化成本后端 (Apache Arrow) 进行内存映射。
        智能缓存:不需要重复处理数据集。
        轻量级和快速的透明和 pythonic API(多处理/缓存/内存映射)。
        兼容性:与 NumPy、pandas、PyTorch、Tensorflow 2 和 JAX 的内置互操作性。

      总结:

      • 关于数据读取和处理可以使用huggingface的datasets库进行高效的处理。
      • 关于训练框架可以使用pytorch-lightning库。
      • 关于指标可以使用torchmetric库。
      • 关于模型可以使用transformers库(预训练模型相关)。

      TODO:

      接下来的几篇文章将分别介绍这四个库的使用方法,最终将结合使用这四个库完成一个文本分类任务。

      1 Reply Last reply Reply Quote 3
      • Alice_恒源云
        Alice_恒源云 last edited by

        @183-0229 在 推荐一些好用的库【NLP】 中说:

        TODO:
        接下来的几篇文章将分别介绍这四个库的使用方法,最终将结合使用这四个库完成一个文本分类任务。

        lz又要搞事情了,蹲一个更新

        1 Reply Last reply Reply Quote 0
        • First post
          Last post