Python mxnet.symbol.op.sgd_mom_update用法及代码示例

用法:
mxnet.symbol.op.sgd_mom_update(weight=None, grad=None, mom=None, lr=_Null, momentum=_Null, wd=_Null, rescale_grad=_Null, clip_gradient=_Null, lazy_update=_Null, name=None, attr=None, out=None, **kwargs)

参数：

weight：(Symbol) - 重量
grad：(Symbol) - 坡度
mom：(Symbol) - 势头
lr：(float, required) - 学习率
momentum：(float, optional, default=0) - 每个时期动量估计的衰减率。
wd：(float, optional, default=0) - 权重衰减通过惩罚大权重的正则化项来增强目标函数。惩罚与每个权重大小的平方成比例。
rescale_grad：(float, optional, default=1) - 将渐变重新缩放为 grad = rescale_grad*grad。
clip_gradient：(float, optional, default=-1) - 将渐变剪裁到 [-clip_gradient, clip_gradient] 的范围内如果clip_gradient <= 0，渐变剪裁被关闭。毕业 = 最大(最小(毕业，clip_gradient)，-clip_gradient)。
lazy_update：(boolean, optional, default=1) - 如果为 true，如果梯度的 stype 为 row_sparse 并且权重和动量具有相同的 stype，则应用延迟更新
name：(string, optional.) - 结果符号的名称。

结果符号。

返回类型：

Symbol

随机梯度下降 (SGD) 优化器的动量更新函数。

动量更新在神经网络上具有更好的收敛速度。从数学上看，它如下所示：

\[\begin{split}v_1 = \alpha * \nabla J(W_0)\\ v_t = \gamma v_{t-1} - \alpha * \nabla J(W_{t-1})\\ W_t = W_{t-1} + v_t\end{split}\]

它使用以下方法更新权重：

v = momentum * v - learning_rate * gradient
weight += v

其中参数momentum 是每个时期动量估计的衰减率。

但是，如果 grad 的存储类型为 row_sparse ，lazy_update 为 True 且权重的存储类型与动量的存储类型相同，则仅更新索引出现在 grad.indices 中的行切片(权重和动量)：

for row in gradient.indices:
    v[row] = momentum[row] * v[row] - learning_rate * gradient[row]
    weight[row] += v[row]

相关用法

注：本文由纯净天空筛选整理自apache.org大神的英文原创作品 mxnet.symbol.op.sgd_mom_update。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

返回类型：