当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python mxnet.symbol.op.ftrl_update用法及代码示例


用法:

mxnet.symbol.op.ftrl_update(weight=None, grad=None, z=None, n=None, lr=_Null, lamda1=_Null, beta=_Null, wd=_Null, rescale_grad=_Null, clip_gradient=_Null, name=None, attr=None, out=None, **kwargs)

参数

  • weight(Symbol) - 重量
  • grad(Symbol) - 坡度
  • z(Symbol) - z
  • n(Symbol) - 毕业广场
  • lr(float, required) - 学习率
  • lamda1(float, optional, default=0.00999999978) - L1 正则化系数。
  • beta(float, optional, default=1) - Per-Coordinate 学习率测试版。
  • wd(float, optional, default=0) - 权重衰减通过惩罚大权重的正则化项来增强目标函数。惩罚与每个权重大小的平方成比例。
  • rescale_grad(float, optional, default=1) - 将渐变重新缩放为 grad = rescale_grad*grad。
  • clip_gradient(float, optional, default=-1) - 将渐变剪裁到 [-clip_gradient, clip_gradient] 的范围内 如果clip_gradient <= 0,渐变剪裁被关闭。毕业 = 最大(最小(毕业,clip_gradient),-clip_gradient)。
  • name(string, optional.) - 结果符号的名称。

返回

结果符号。

返回类型

Symbol

Ftrl 优化器的更新函数。引用自 Ad Click Prediction: a View from the Trenches ,可在 http://dl.acm.org/citation.cfm?id=2488200 获得。

它使用以下方法更新权重:

rescaled_grad = clip(grad * rescale_grad, clip_gradient)
z += rescaled_grad - (sqrt(n + rescaled_grad**2) - sqrt(n)) * weight / learning_rate
n += rescaled_grad**2
w = (sign(z) * lamda1 - z) / ((beta + sqrt(n)) / learning_rate + wd) * (abs(z) > lamda1)

如果 w、z 和 n 都是 row_sparse 存储类型,则仅更新索引出现在 grad.indices 中的行切片(对于 w、z 和 n):

for row in grad.indices:
    rescaled_grad[row] = clip(grad[row] * rescale_grad, clip_gradient)
    z[row] += rescaled_grad[row] - (sqrt(n[row] + rescaled_grad[row]**2) - sqrt(n[row])) * weight[row] / learning_rate
    n[row] += rescaled_grad[row]**2
    w[row] = (sign(z[row]) * lamda1 - z[row]) / ((beta + sqrt(n[row])) / learning_rate + wd) * (abs(z[row]) > lamda1)

相关用法


注:本文由纯净天空筛选整理自apache.org大神的英文原创作品 mxnet.symbol.op.ftrl_update。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。