当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python mxnet.ndarray.sparse.adagrad_update用法及代码示例


用法:

mxnet.ndarray.sparse.adagrad_update(weight=None, grad=None, history=None, lr=_Null, epsilon=_Null, wd=_Null, rescale_grad=_Null, clip_gradient=_Null, out=None, name=None, **kwargs)

参数

  • weight(NDArray) - 重量
  • grad(NDArray) - 坡度
  • history(NDArray) - 历史
  • lr(float, required) - 学习率
  • epsilon(float, optional, default=1.00000001e-07) - ε
  • wd(float, optional, default=0) - 重量衰减
  • rescale_grad(float, optional, default=1) - 将渐变重新缩放为 grad = rescale_grad*grad。
  • clip_gradient(float, optional, default=-1) - 将渐变剪裁到 [-clip_gradient, clip_gradient] 的范围内 如果clip_gradient <= 0,渐变剪裁被关闭。毕业 = 最大(最小(毕业,clip_gradient),-clip_gradient)。
  • out(NDArray, optional) - 输出 NDArray 来保存结果。

返回

out- 此函数的输出。

返回类型

NDArray 或 NDArray 列表

AdaGrad 优化器的更新函数。

引用自Adaptive Subgradient Methods for Online Learning and Stochastic Optimization,并在http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf.

更新适用于:

rescaled_grad = clip(grad * rescale_grad, clip_gradient)
history = history + square(rescaled_grad)
w = w - learning_rate * rescaled_grad / sqrt(history + epsilon)

请注意,不支持权重衰减选项的非零值。

相关用法


注:本文由纯净天空筛选整理自apache.org大神的英文原创作品 mxnet.ndarray.sparse.adagrad_update。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。