RNN神经网络的梯度消失和梯度爆炸

短命女 2023-03-13 03:14 13阅读 0赞

[时间序列的反向传播算法][Link 1]  
得到：  
 ∂ h t ∂ h s = ∂ h t ∂ h t − 1 ∂ h t − 1 ∂ h t − 2 . . . ∂ h s + 1 ∂ h s \\frac\{\\partial h\_t\}\{\\partial h\_s\} = \\frac\{\\partial h\_t\}\{\\partial h\_\{t-1\}\} \\frac\{\\partial h\_\{t-1\}\}\{\\partial h\_\{t-2\}\} ... \\frac\{\\partial h\_\{s+1\}\}\{\\partial h\_\{s\}\} ∂hs∂ht=∂ht−1∂ht∂ht−2∂ht−1...∂hs∂hs\+1

注意到：  
 h t = W f ( h t − 1 ) + U x t h\_t=Wf(h\_\{t-1\})+Ux\_t ht=Wf(ht−1)\+Uxt

计算jacobian 矩阵  
 ∂ h t ∂ h s = ∏ k = s + 1 t W T d i a g \[ f ′ ( W h k − 1 ) \] \\frac\{\\partial h\_t\}\{\\partial h\_s\} = \\prod^t\_\{k=s+1\}W^Tdiag\[f^\{'\}(Wh\_\{k-1\})\] ∂hs∂ht=∏k=s\+1tWTdiag\[f′(Whk−1)\]

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RIX05VTQ_size_16_color_FFFFFF_t_70]  
根据柯西-西瓦兹不等式  
 ∂ h t ∂ h t − 1 ≤ ∣ ∣ W T ∣ ∣ ∣ ∣ d i a g \[ f ′ ( W h t − 1 ) \] ∣ ∣ ≤ σ m a x γ \\frac\{\\partial h\_t\}\{\\partial h\_\{t-1\}\} \\leq ||W^T||||diag\[f^\{'\}(Wh\_\{t-1\})\]|| \\leq \\sigma\_\{max\} \\gamma ∂ht−1∂ht≤∣∣WT∣∣∣∣diag\[f′(Wht−1)\]∣∣≤σmaxγ

σ m a x \\sigma\_\{max\} σmax是 W T W^T WT矩阵的最大奇异值,  γ \\gamma γ是 ∣ ∣ d i a g \[ f ′ ( W h t − 1 ) \] ∣ ∣ ||diag\[f^\{'\}(Wh\_\{t-1\})\]|| ∣∣diag\[f′(Wht−1)\]∣∣上界，  γ \\gamma γ依赖激活函数f，  ∣ t a n h ( x ) ′ ∣ ≤ 1 |tanh(x)^\{'\}|\\leq 1 ∣tanh(x)′∣≤1,  σ ( x ) ′ ≤ 1 4 \\sigma(x)^\{'\} \\leq \\frac\{1\}\{4\} σ(x)′≤41  
所以  
 ∂ h t ∂ h s = ∂ h t ∂ h t − 1 ∂ h t − 1 ∂ h t − 2 . . . ∂ h s + 1 ∂ h s ≤ ( σ m a x γ ) t − s \\frac\{\\partial h\_t\}\{\\partial h\_s\} = \\frac\{\\partial h\_t\}\{\\partial h\_\{t-1\}\} \\frac\{\\partial h\_\{t-1\}\}\{\\partial h\_\{t-2\}\} ... \\frac\{\\partial h\_\{s+1\}\}\{\\partial h\_\{s\}\} \\leq (\\sigma\_\{max\}\\gamma)^\{t-s\} ∂hs∂ht=∂ht−1∂ht∂ht−2∂ht−1...∂hs∂hs\+1≤(σmaxγ)t−s  
由于参数共享 W W W，RNN存在梯度消失或者梯度爆炸。

### 解决办法： ###

梯度爆炸：

*  权重惩罚 Weight Penalty （不work）  
     ∣ ∣ W ∣ ∣ 2 ≤ I ||W||\_2 \\leq I ∣∣W∣∣2≤I  
    不足：  
    （1）W约束比较小的范围内，建模不足  
    （2）信息比较快的衰减（梯度消失）  
    （3）没办法长时序的建模
 *  梯度裁剪Gradient Clipping (work)

高曲率墙的存在造成了困难  
虚线：当范数高于一个值的时候，梯度重新表定为固定的打小，引入了额外的裁剪。

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RIX05VTQ_size_16_color_FFFFFF_t_70 1]![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RIX05VTQ_size_16_color_FFFFFF_t_70 2]

**其他的方法**：  
当W是正交矩阵的时候，  W T W = I W^TW=I WTW=I,  
 ( W T v ) T ( W T v ) = v T W W T v = v T v (W^Tv)^T(W^Tv) = v^TWW^Tv = v^Tv (WTv)T(WTv)=vTWWTv=vTv  
初始化的时候W可以是正交的矩阵，但是训练的时候W会发生变化，无法保证是正交矩阵。

[Link 1]: https://blog.csdn.net/TH_NUM/article/details/106033310
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RIX05VTQ_size_16_color_FFFFFF_t_70]: /images/20230312/010e778338ff49e08699b17538cedab0.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RIX05VTQ_size_16_color_FFFFFF_t_70 1]: https://img-blog.csdnimg.cn/2020051011422643.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RIX05VTQ==,size_16,color_FFFFFF,t_70
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RIX05VTQ_size_16_color_FFFFFF_t_70 2]: /images/20230312/78c4d342712249e3aa3325bc5339ab36.png