像情感分析,实际的流程是这样
对于Tokenizer,做的工作是这样
对于tokenizer,由3种方式,分别是word-based,character-based,subword tokenization
第一个是这样的
第二个是这样的
最后一个是这样的
像那些预训练模型,用的tokenizer如下:
然后涉及到关于tokenizer中encoding和decoding的部分
encoding涉及到两个函数
decoding涉及到一个函数
参考:
https://huggingface.co/course/chapter2/1?fw=pt