【文献笔记】关于给训练样本重新给权重的方法
-
前言
人类学习一般是由易到难,那么模型训练是否也有类似的规律呢?
背景
Curriculum learning 的训练结果展示了从容易的样本入手可以提升训练效果,然而一般情况下我们并不知道哪些样本对于模型来说是容易学习的。先假设我们已经对样本有了一定的了解,那么将有三种方法去对样本调整权重。
方法
Self-paced learning
这种方法主张给简单的样本更多的权重,理由是一些比较困难的样本可能本身就是label noise。
Hard example mining
该方法则恰恰相反,主张给困难的样本更多权重,理由是基于一些实验观察,比如只用简单的样本往往导致训练过慢,训练困难样本的话反而能加快梯度下降的过程。其假设就是困难的样本不是label noise,是真的值得好好学的。
Active learning
这个方法选择给不确定的样本更多的权重。首先该文章认为如果一个模型能够反复预测对一些样本并且给出低置信度的话,则这些样本可能太简单了,没有更多有价值的信息可以榨取,反之如果一个模型训练好多次以后都没办法对一个样本预测对的话,则该样本则被认定为是noise, 或者是被定义为太难了,基本不可能学会了。这两种样本都不应该给更高的权重,反而是那些摇摆不定的样本,也就是时而能预测对,时而不能预测对的样本应该给予更多的权重。这里也间接提供了一种如果判定简单和困难样本的思路。