动手深度学习note-1(权重衰退)
权重衰退——Weight-Declay
- 一种正则化的技术,用来缓解过拟合问题

公式推导
对于一般的损失函数 \[ L(\mathbf{w}, b) = \frac{1}{n}\sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.\tag{1} \]
使用均方范数作为硬性限制
\[ 执行min\ \ L(w,b)并限制||\mathbf{w}||^2\le\theta \]
- 当\(\theta\)值取得很小时,意味着更高的正则化
使用权重衰退进行柔性限制
\[ min \ \ L(\mathbf{w},\mathbf{b})+\frac{\lambda}{2}||\mathbf{w}||^2\tag{2} \]
计算梯度: \[ \frac{\partial}{\partial \mathbf{w}}(L(\mathbf{w},b)+\frac{\lambda}{2}||\mathbf{w}||^2)=\frac{\partial L(\mathbf{w},b)}{\partial \mathbf{w}}+\lambda \mathbf{w} \tag{3} \] 执行\(t+1\)时刻参数更新: \[ \mathbf{w}_{t+1}=\mathbf{w}_{t}-\eta\frac{\partial}{\partial \mathbf{w_t}}\tag{4} \] 将\((3)\)代入\((4)\): \[ \mathbf{w}_{t+1}=(1-\eta \lambda)\mathbf{w}_{t}-\eta\frac{\partial}{\partial \mathbf{w}_{t}}L(\mathbf{w_t},b)\tag{I} \] 对比将\((1)\)求梯度并执行梯度下降: \[ \mathbf{w}_{t+1}=\mathbf{w}_{t}-\eta\frac{\partial}{\partial \mathbf{w}_{t}}L(\mathbf{w_t},b)\tag{II} \] 而\(\eta \lambda<1\),故这种梯度下降的方法中随着参数的更新,参数也在减小
代码实现
1 |
|
1 |
|
调整合适参数验证