當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python tf.compat.v1.tpu.experimental.AdamParameters用法及代碼示例


使用 TPU 嵌入的 Adam 優化參數。

用法

tf.compat.v1.tpu.experimental.AdamParameters(
    learning_rate:float,
    beta1:float = 0.9,
    beta2:float = 0.999,
    epsilon:float = 1e-08,
    lazy_adam:bool = True,
    sum_inside_sqrt:bool = True,
    use_gradient_accumulation:bool = True,
    clip_weight_min:Optional[float] = None,
    clip_weight_max:Optional[float] = None,
    weight_decay_factor:Optional[float] = None,
    multiply_weight_decay_factor_by_learning_rate:Optional[bool] = None,
    clip_gradient_min:Optional[float] = None,
    clip_gradient_max:Optional[float] = None
)

參數

  • learning_rate 一個浮點值。學習率。
  • beta1 一個浮點值。一階矩估計的 index 衰減率。
  • beta2 一個浮點值。二階矩估計的 index 衰減率。
  • epsilon 用於數值穩定性的小常數。
  • lazy_adam 使用懶惰的亞當而不是亞當。懶惰的亞當訓練得更快。有關詳細信息,請參閱optimization_parameters.proto
  • sum_inside_sqrt 這提高了訓練速度。詳情請參閱optimization_parameters.proto
  • use_gradient_accumulation 將此設置為 False 會使嵌入梯度計算的準確性降低但速度更快。詳情請參閱optimization_parameters.proto
  • clip_weight_min 要裁剪的最小值;無意味著-無窮大。
  • clip_weight_max 要裁剪的最大值;無意味著+無窮大。
  • weight_decay_factor 要應用的重量衰減量; None 表示權重沒有衰減。
  • multiply_weight_decay_factor_by_learning_rate 如果為真,weight_decay_factor 將乘以當前學習率。
  • clip_gradient_min 要裁剪的最小值;無意味著-無窮大。如果設置了梯度累積,則必須將其設置為 true。
  • clip_gradient_max 要裁剪的最大值;無意味著+無窮大。如果設置了梯度累積,則必須將其設置為 true。

通過 optimization_parameters 參數將此傳遞給 tf.estimator.tpu.experimental.EmbeddingConfigSpec 以設置優化器及其參數。有關更多詳細信息,請參閱tf.estimator.tpu.experimental.EmbeddingConfigSpec 的文檔。

estimator = tf.estimator.tpu.TPUEstimator(
    ...
    embedding_config_spec=tf.estimator.tpu.experimental.EmbeddingConfigSpec(
        ...
        optimization_parameters=tf.tpu.experimental.AdamParameters(0.1),
        ...))

相關用法


注:本文由純淨天空篩選整理自tensorflow.org大神的英文原創作品 tf.compat.v1.tpu.experimental.AdamParameters。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。