常见激活函数特点
sigmoid:输入值很大时对应的函数值接近1或0,处于函数的饱和区,导致梯度几乎为0,造成梯度消失问题
Relu:解决梯度消失问题,但是会出现dying relu现象,即训练过程中,有些神经元实际上已经”死亡“而不再输出任何数值
Leaky Relu:f = max(αx, x),解决dying relu问题,α的取值较大时比较小时的效果更好。它有一个衍生函数,parametric Leaky Relu,在该函数中α是需要去学习的
ELU:避免dying神经元,并且处处连续,从而加速SGD,但是计算比较复杂
激活函数的选择顺序:ELU>Leaky Relu及其变体>Relu>tanh>sigmoid
转自微信公众号,忘记哪篇文章了,如有原作看到,欢迎联系。
还没有评论,来说两句吧...