當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python mxnet.symbol.contrib.group_adagrad_update用法及代碼示例


用法:

mxnet.symbol.contrib.group_adagrad_update(weight=None, grad=None, history=None, lr=_Null, rescale_grad=_Null, clip_gradient=_Null, epsilon=_Null, name=None, attr=None, out=None, **kwargs)

參數

  • weight(Symbol) - 重量
  • grad(Symbol) - 坡度
  • history(Symbol) - 曆史
  • lr(float, required) - 學習率
  • rescale_grad(float, optional, default=1) - 將漸變重新縮放為 grad = rescale_grad*grad。
  • clip_gradient(float, optional, default=-1) - 將漸變剪裁到 [-clip_gradient, clip_gradient] 的範圍內 如果clip_gradient <= 0,漸變剪裁被關閉。畢業 = 最大(最小(畢業,clip_gradient),-clip_gradient)。
  • epsilon(float, optional, default=9.99999975e-06) - 用於數值穩定性的 Epsilon
  • name(string, optional.) - 結果符號的名稱。

返回

結果符號。

返回類型

Symbol

Group AdaGrad 優化器的更新函數。

引用自Adaptive Subgradient Methods for Online Learning and Stochastic Optimization,並在http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf但對參數數組的每一行隻使用一個學習率。

更新適用於:

grad = clip(grad * rescale_grad, clip_gradient)
history += mean(square(grad), axis=1, keepdims=True)
div = grad / sqrt(history + float_stable_eps)
weight -= div * lr

如果梯度稀疏,權重會延遲更新。

請注意,不支持權重衰減選項的非零值。

相關用法


注:本文由純淨天空篩選整理自apache.org大神的英文原創作品 mxnet.symbol.contrib.group_adagrad_update。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。