Python tf.compat.v1.train.cosine_decay用法及代碼示例

將餘弦衰減應用於學習率。

用法

tf.compat.v1.train.cosine_decay(
    learning_rate, global_step, decay_steps, alpha=0.0, name=None
)

參數

learning_rate 標量 float32 或 float64 張量或 Python 數字。初始學習率。
global_step 標量 int32 或 int64 Tensor 或 Python 編號。用於衰減計算的全局步驟。
decay_steps 標量 int32 或 int64 Tensor 或 Python 編號。要衰減的步數。
alpha 標量 float32 或 float64 張量或 Python 數字。最小學習率值作為learning_rate 的一部分。
name String 。操作的可選名稱。默認為'CosineDecay'。

與 learning_rate 類型相同的標量 Tensor 。衰減的學習率。

拋出

ValueError 如果未提供 global_step。

在訓練模型時，通常建議隨著訓練的進行降低學習率。此函數將餘弦衰減函數應用於提供的初始學習率。它需要一個global_step 值來計算衰減的學習率。您可以隻傳遞一個 TensorFlow 變量，該變量在每個訓練步驟中遞增。

該函數返回衰減的學習率。它被計算為：

global_step = min(global_step, decay_steps)
cosine_decay = 0.5 * (1 + cos(pi * global_step / decay_steps))
decayed = (1 - alpha) * cosine_decay + alpha
decayed_learning_rate = learning_rate * decayed

示例用法：

decay_steps = 1000
lr_decayed = cosine_decay(learning_rate, global_step, decay_steps)

參考：

帶有熱重啟的隨機梯度下降：Loshchilov 等人，2017 (pdf)

eager模式兼容性

當啟用即刻執行時，此函數返回一個函數，該函數又返回衰減的學習率張量。這對於在優化器函數的不同調用中更改學習率值很有用。

相關用法

注：本文由純淨天空篩選整理自tensorflow.org大神的英文原創作品 tf.compat.v1.train.cosine_decay。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。