Python tf.compat.v1.train.AdadeltaOptimizer用法及代码示例

实现 Adadelta 算法的优化器。

继承自：Optimizer

用法

tf.compat.v1.train.AdadeltaOptimizer(
    learning_rate=0.001, rho=0.95, epsilon=1e-08, use_locking=False,
    name='Adadelta'
)

参数

learning_rate Tensor 或浮点值。学习率。要匹配原始论文中的确切形式，请使用 1.0。
rho Tensor 或浮点值。衰减率。
epsilon Tensor 或浮点值。一个常数 epsilon 用于更好地调节 grad 更新。
use_locking 如果True 使用锁进行更新操作。
name 应用渐变时创建的操作的可选名称前缀。默认为"Adadelta"。

迁移到 TF2

警告：这个 API 是为 TensorFlow v1 设计的。继续阅读有关如何从该 API 迁移到本机 TensorFlow v2 等效项的详细信息。见TensorFlow v1 到 TensorFlow v2 迁移指南有关如何迁移其余代码的说明。

tf.compat.v1.train.AdadeltaOptimizer 与 Eager 模式和 tf.function 兼容。当启用即刻执行时，learning_rate , rho 和 epsilon 都可以是不带参数并返回要使用的实际值的可调用对象。这对于在优化器函数的不同调用中更改这些值很有用。

要切换到原生 TF2 样式，请改用 tf.keras.optimizers.Adadelta。请注意，由于实现的差异，tf.keras.optimizers.Adadelta 和tf.compat.v1.train.AdadeltaOptimizer 在浮点数值上可能会略有不同，即使用于变量更新的公式仍然匹配。

到原生 TF2 的结构映射

前：

optimizer = tf.compat.v1.train.AdadeltaOptimizer(
  learning_rate=learning_rate,
  rho=rho,
  epsilon=epsilon)

后：

optimizer = tf.keras.optimizers.Adadelta(
  learning_rate=learning_rate,
  rho=rho,
  epsilon=epsilon)

如何映射参数

TF1 参数名称	TF2 参数名称	注意
`learning_rate`	`learning_rate`	小心设置从全局步骤计算的learning_rate 张量值。在 TF1 中，这通常意味着动态学习率，并且会在每一步中重新计算。在 TF2 (eager + function) 中，它会将其视为仅计算一次的标量值，而不是每次都计算的符号占位符。
`rho`	`rho`	-
`epsilon`	`epsilon`	TF1 中默认值为 1e-08，TF2 中默认值为 1e-07。
`use_locking`	-	不适用于 TF2。

使用前后示例

前：

x = tf.Variable([1,2,3], dtype=tf.float32)
grad = tf.constant([0.1, 0.2, 0.3])
optimizer = tf.compat.v1.train.AdadeltaOptimizer(learning_rate=0.001)
optimizer.apply_gradients(zip([grad], [x]))

后：

x = tf.Variable([1,2,3], dtype=tf.float32)
grad = tf.constant([0.1, 0.2, 0.3])
optimizer = tf.keras.optimizers.Adadelta(learning_rate=0.001)
optimizer.apply_gradients(zip([grad], [x]))

参考：

ADADELTA - 一种自适应学习率方法：Zeiler，2012 (pdf)

相关用法

注：本文由纯净天空筛选整理自tensorflow.org大神的英文原创作品 tf.compat.v1.train.AdadeltaOptimizer。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。