Python mxnet.symbol.contrib.group_adagrad_update用法及代码示例

用法:
mxnet.symbol.contrib.group_adagrad_update(weight=None, grad=None, history=None, lr=_Null, rescale_grad=_Null, clip_gradient=_Null, epsilon=_Null, name=None, attr=None, out=None, **kwargs)

参数：

weight：(Symbol) - 重量
grad：(Symbol) - 坡度
history：(Symbol) - 历史
lr：(float, required) - 学习率
rescale_grad：(float, optional, default=1) - 将渐变重新缩放为 grad = rescale_grad*grad。
clip_gradient：(float, optional, default=-1) - 将渐变剪裁到 [-clip_gradient, clip_gradient] 的范围内如果clip_gradient <= 0，渐变剪裁被关闭。毕业 = 最大(最小(毕业，clip_gradient)，-clip_gradient)。
epsilon：(float, optional, default=9.99999975e-06) - 用于数值稳定性的 Epsilon
name：(string, optional.) - 结果符号的名称。

结果符号。

返回类型：

Symbol

Group AdaGrad 优化器的更新函数。

引用自Adaptive Subgradient Methods for Online Learning and Stochastic Optimization，并在http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf但对参数数组的每一行只使用一个学习率。

更新适用于：

grad = clip(grad * rescale_grad, clip_gradient)
history += mean(square(grad), axis=1, keepdims=True)
div = grad / sqrt(history + float_stable_eps)
weight -= div * lr

如果梯度稀疏，权重会延迟更新。

请注意，不支持权重衰减选项的非零值。

相关用法

注：本文由纯净天空筛选整理自apache.org大神的英文原创作品 mxnet.symbol.contrib.group_adagrad_update。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

返回类型：