Python tf.tpu.experimental.embedding.SGD用法及代码示例

TPU 嵌入的随机梯度下降的优化参数。

用法

tf.tpu.experimental.embedding.SGD(
    learning_rate:Union[float, Callable[[], float]] = 0.01,
    clip_weight_min:Optional[float] = None,
    clip_weight_max:Optional[float] = None,
    weight_decay_factor:Optional[float] = None,
    multiply_weight_decay_factor_by_learning_rate:bool = None,
    clipvalue:Optional[ClipValueType] = None
)

参数

learning_rate 学习率。它应该是一个浮点值或一个不带参数的可调用动态学习率。
clip_weight_min 要裁剪的最小值；无意味着-无穷大。
clip_weight_max 要裁剪的最大值；无意味着+无穷大。
weight_decay_factor 要应用的重量衰减量； None 表示权重没有衰减。每一步都通过将权重乘以该因子来衰减权重。
multiply_weight_decay_factor_by_learning_rate 如果为真，weight_decay_factor 将乘以当前学习率。
clipvalue 控制渐变的剪裁。设置为单个正标量值以获取剪裁，或者设置为一组标量值(最小值、最大值)以设置单独的最大值或最小值。如果两个条目之一为无，则不会裁剪该方向。请注意，如果设置了此项，您可能会看到性能下降，因为将启用梯度累积(SGD 通常关闭，因为它对准确性没有影响)。有关梯度累积及其对 tpu 嵌入的影响的更多信息，请参阅“tensorflow/core/protobuf/tpu/optimization_parameters.proto”。

通过 optimizer 参数将此传递给 tf.tpu.experimental.embedding.TPUEmbedding 以设置全局优化器及其参数：

embedding = tf.tpu.experimental.embedding.TPUEmbedding(
    ...
    optimizer=tf.tpu.experimental.embedding.SGD(0.1))

这也可以在tf.tpu.experimental.embedding.TableConfig 中用作优化器参数来设置特定于表的优化器。这将覆盖上面定义的全局嵌入优化器的优化器和参数：

table_one = tf.tpu.experimental.embedding.TableConfig(
    vocabulary_size=...,
    dim=...,
    optimizer=tf.tpu.experimental.embedding.SGD(0.2))
table_two = tf.tpu.experimental.embedding.TableConfig(
    vocabulary_size=...,
    dim=...)

feature_config = (
    tf.tpu.experimental.embedding.FeatureConfig(
        table=table_one),
    tf.tpu.experimental.embedding.FeatureConfig(
        table=table_two))

embedding = tf.tpu.experimental.embedding.TPUEmbedding(
    feature_config=feature_config,
    batch_size=...
    optimizer=tf.tpu.experimental.embedding.SGD(0.1))

在上面的示例中，将在学习率为 0.2 的表中查找第一个特征，而将在学习率为 0.1 的表中查找第二个特征。

有关这些参数及其对优化器算法的影响的完整说明，请参阅“tensorflow/core/protobuf/tpu/optimization_parameters.proto”。

相关用法

注：本文由纯净天空筛选整理自tensorflow.org大神的英文原创作品 tf.tpu.experimental.embedding.SGD。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。