Python tf.compat.v1.tpu.experimental.AdamParameters用法及代碼示例

使用 TPU 嵌入的 Adam 優化參數。

用法

tf.compat.v1.tpu.experimental.AdamParameters(
    learning_rate:float,
    beta1:float = 0.9,
    beta2:float = 0.999,
    epsilon:float = 1e-08,
    lazy_adam:bool = True,
    sum_inside_sqrt:bool = True,
    use_gradient_accumulation:bool = True,
    clip_weight_min:Optional[float] = None,
    clip_weight_max:Optional[float] = None,
    weight_decay_factor:Optional[float] = None,
    multiply_weight_decay_factor_by_learning_rate:Optional[bool] = None,
    clip_gradient_min:Optional[float] = None,
    clip_gradient_max:Optional[float] = None
)

參數

learning_rate 一個浮點值。學習率。
beta1 一個浮點值。一階矩估計的 index 衰減率。
beta2 一個浮點值。二階矩估計的 index 衰減率。
epsilon 用於數值穩定性的小常數。
lazy_adam 使用懶惰的亞當而不是亞當。懶惰的亞當訓練得更快。有關詳細信息，請參閱optimization_parameters.proto。
sum_inside_sqrt 這提高了訓練速度。詳情請參閱optimization_parameters.proto。
use_gradient_accumulation 將此設置為 False 會使嵌入梯度計算的準確性降低但速度更快。詳情請參閱optimization_parameters.proto。
clip_weight_min 要裁剪的最小值；無意味著-無窮大。
clip_weight_max 要裁剪的最大值；無意味著+無窮大。
weight_decay_factor 要應用的重量衰減量； None 表示權重沒有衰減。
multiply_weight_decay_factor_by_learning_rate 如果為真，weight_decay_factor 將乘以當前學習率。
clip_gradient_min 要裁剪的最小值；無意味著-無窮大。如果設置了梯度累積，則必須將其設置為 true。
clip_gradient_max 要裁剪的最大值；無意味著+無窮大。如果設置了梯度累積，則必須將其設置為 true。

通過 optimization_parameters 參數將此傳遞給 tf.estimator.tpu.experimental.EmbeddingConfigSpec 以設置優化器及其參數。有關更多詳細信息，請參閱tf.estimator.tpu.experimental.EmbeddingConfigSpec 的文檔。

estimator = tf.estimator.tpu.TPUEstimator(
    ...
    embedding_config_spec=tf.estimator.tpu.experimental.EmbeddingConfigSpec(
        ...
        optimization_parameters=tf.tpu.experimental.AdamParameters(0.1),
        ...))

相關用法

注：本文由純淨天空篩選整理自tensorflow.org大神的英文原創作品 tf.compat.v1.tpu.experimental.AdamParameters。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。