当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python tf.compat.v1.tpu.experimental.AdamParameters用法及代码示例


使用 TPU 嵌入的 Adam 优化参数。

用法

tf.compat.v1.tpu.experimental.AdamParameters(
    learning_rate:float,
    beta1:float = 0.9,
    beta2:float = 0.999,
    epsilon:float = 1e-08,
    lazy_adam:bool = True,
    sum_inside_sqrt:bool = True,
    use_gradient_accumulation:bool = True,
    clip_weight_min:Optional[float] = None,
    clip_weight_max:Optional[float] = None,
    weight_decay_factor:Optional[float] = None,
    multiply_weight_decay_factor_by_learning_rate:Optional[bool] = None,
    clip_gradient_min:Optional[float] = None,
    clip_gradient_max:Optional[float] = None
)

参数

  • learning_rate 一个浮点值。学习率。
  • beta1 一个浮点值。一阶矩估计的 index 衰减率。
  • beta2 一个浮点值。二阶矩估计的 index 衰减率。
  • epsilon 用于数值稳定性的小常数。
  • lazy_adam 使用懒惰的亚当而不是亚当。懒惰的亚当训练得更快。有关详细信息,请参阅optimization_parameters.proto
  • sum_inside_sqrt 这提高了训练速度。详情请参阅optimization_parameters.proto
  • use_gradient_accumulation 将此设置为 False 会使嵌入梯度计算的准确性降低但速度更快。详情请参阅optimization_parameters.proto
  • clip_weight_min 要裁剪的最小值;无意味着-无穷大。
  • clip_weight_max 要裁剪的最大值;无意味着+无穷大。
  • weight_decay_factor 要应用的重量衰减量; None 表示权重没有衰减。
  • multiply_weight_decay_factor_by_learning_rate 如果为真,weight_decay_factor 将乘以当前学习率。
  • clip_gradient_min 要裁剪的最小值;无意味着-无穷大。如果设置了梯度累积,则必须将其设置为 true。
  • clip_gradient_max 要裁剪的最大值;无意味着+无穷大。如果设置了梯度累积,则必须将其设置为 true。

通过 optimization_parameters 参数将此传递给 tf.estimator.tpu.experimental.EmbeddingConfigSpec 以设置优化器及其参数。有关更多详细信息,请参阅tf.estimator.tpu.experimental.EmbeddingConfigSpec 的文档。

estimator = tf.estimator.tpu.TPUEstimator(
    ...
    embedding_config_spec=tf.estimator.tpu.experimental.EmbeddingConfigSpec(
        ...
        optimization_parameters=tf.tpu.experimental.AdamParameters(0.1),
        ...))

相关用法


注:本文由纯净天空筛选整理自tensorflow.org大神的英文原创作品 tf.compat.v1.tpu.experimental.AdamParameters。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。