标签平滑label smoothing-蒲公英云

标签平滑label smoothing

lable smoothing是分类问题中错误标注的一种解决方法。
对于分类问题，特别是多分类问题，常常把向量转换成one-hot-vector
one-hot带来的问题：
对于损失函数，我们需要用预测概率去拟合真实概率，而拟合one-hot的真实概率函数会带来两个问题：
1)无法保证模型的泛化能力，容易造成过拟合；
2) 全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大，而由梯度有界可知，这种情况很难适应。会造成模型过于相信训练数据的类别。
使用下面的 label smoothing 可以缓解这个问题：
在这里插入图片描述
代码实现如下：

def label_smoothing(inputs, epsilon=0.1):
    K = inputs.get_shape().as_list()[-1]    # number of channels
    return ((1-epsilon) * inputs) + (epsilon / K)

交叉熵（Cross-Entropy）损失函数是分类模型中的一种非常重要的目标函数。以二分类问题为例，交叉熵损失函数的形式如下：
在这里插入图片描述
如果分类准确，交叉熵损失函数的结果是0（即上式中p和y一致的情况），否则交叉熵为无穷大。也就是说交叉熵对分类正确给的是最大激励。换句话说，对于标注数据来说，这个时候我们认为其标注结果是准确的（不然这个结果就没意义了）。但实际上，有一些标注数据并不一定是准确的。那么这时候，使用交叉熵损失函数作为目标函数并不一定是最优的。
Label Smoothing在很多问题上对模型都有一定的提升。
在Tensorflow中使用方法时候只要在损失函数中加上label_smoothing的值即可，如下：

tf.losses.softmax_cross_entropy(
    onehot_labels,
    logits,
    weights=1.0,
    label_smoothing=0,
    scope=None,
    loss_collection=tf.GraphKeys.LOSSES,
    reduction=Reduction.SUM_BY_NONZERO_WEIGHTS
)