当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python tf.distribute.cluster_resolver.UnionResolver用法及代码示例


在底层 ClusterResolvers 上执行联合。

继承自:ClusterResolver

用法

tf.distribute.cluster_resolver.UnionResolver(
    *args, **kwargs
)

参数

  • *args ClusterResolver 要联合的对象。
  • **kwargs rpc_layer - (可选)覆盖 TensorFlow 使用的 RPC 层的值。 task_type - (可选)覆盖当前任务类型的值。 task_id - (可选)覆盖当前任务索引的值。

抛出

  • TypeError 如果任何参数不是 ClusterResolvers 的子类。
  • ValueError 如果没有传递参数。

属性

  • environment 返回 TensorFlow 运行的当前环境。

    有两个可能的返回值,"google"(当 TensorFlow 在 Google-internal 环境中运行时)或空字符串(当 TensorFlow 在其他地方运行时)。

    如果您正在实现一个在 Google 环境和开源世界中都可以工作的 ClusterResolver(例如,TPU ClusterResolver 或类似的),您将必须根据环境返回适当的字符串,您必须检测到该字符串。

    否则,如果您正在实现仅在开源 TensorFlow 中工作的 ClusterResolver,则无需实现此属性。

  • rpc_layer
  • task_id 返回此任务 IDClusterResolver表示。

    在 TensorFlow 分布式环境中,每个作业可能有一个适用的任务 id,它是实例在其任务类型中的索引。当用户需要根据任务索引运行特定代码时,这很有用。例如,

    cluster_spec = tf.train.ClusterSpec({
        "ps":["localhost:2222", "localhost:2223"],
        "worker":["localhost:2224", "localhost:2225", "localhost:2226"]
    })
    
    # SimpleClusterResolver is used here for illustration; other cluster
    # resolvers may be used for other source of task type/id.
    simple_resolver = SimpleClusterResolver(cluster_spec, task_type="worker",
                                            task_id=0)
    
    ...
    
    if cluster_resolver.task_type == 'worker' and cluster_resolver.task_id == 0:
      # Perform something that's only applicable on 'worker' type, id 0. This
      # block will run on this particular instance since we've specified this
      # task to be a 'worker', id 0 in above cluster resolver.
    else:
      # Perform something that's only applicable on other ids. This block will
      # not run on this particular instance.

    如果此类信息不可用或不适用于当前分布式环境(例如使用 tf.distribute.cluster_resolver.TPUClusterResolver 进行训练),则返回 None

    有关详细信息,请参阅 tf.distribute.cluster_resolver.ClusterResolver 的类文档字符串。

  • task_type 返回此任务类型ClusterResolver表示。

    在 TensorFlow 分布式环境中,每个作业都可能有一个适用的任务类型。 TensorFlow 中的有效任务类型包括 'chief':被指定承担更多责任的工作人员、'worker':用于训练/评估的常规工作人员、'ps':参数服务器或 'evaluator':评估检查点的评估程序用于指标。

    有关最常用的'chief' 和'worker' 任务类型的更多信息,请参阅Multi-worker 配置。

    当用户需要根据任务类型运行特定代码时,访问此类信息非常有用。例如,

    cluster_spec = tf.train.ClusterSpec({
        "ps":["localhost:2222", "localhost:2223"],
        "worker":["localhost:2224", "localhost:2225", "localhost:2226"]
    })
    
    # SimpleClusterResolver is used here for illustration; other cluster
    # resolvers may be used for other source of task type/id.
    simple_resolver = SimpleClusterResolver(cluster_spec, task_type="worker",
                                            task_id=1)
    
    ...
    
    if cluster_resolver.task_type == 'worker':
      # Perform something that's only applicable on workers. This block
      # will run on this particular instance since we've specified this task to
      # be a worker in above cluster resolver.
    elif cluster_resolver.task_type == 'ps':
      # Perform something that's only applicable on parameter servers. This
      # block will not run on this particular instance.

    如果此类信息不可用或不适用于当前分布式环境(例如使用 tf.distribute.experimental.TPUStrategy 进行训练),则返回 None

    有关详细信息,请参阅 tf.distribute.cluster_resolver.ClusterResolver 的课程文档。

此类在给定两个或多个现有 ClusterResolver 的情况下执行联合。它合并底层的ClusterResolver,并在调用cluster_spec时返回一个统一的ClusterSpec。合并函数的详细信息记录在cluster_spec 函数中。

对于任务类型、任务索引、rpc 层、环境等其他 ClusterResolver 属性,我们将从联合中的第一个 ClusterResolver 返回值。

结合两个集群解析器的示例:

cluster_0 = tf.train.ClusterSpec({"worker":["worker0.example.com:2222",
                                               "worker1.example.com:2222"]})
  cluster_resolver_0 = SimpleClusterResolver(cluster, task_type="worker",
                                             task_id=0,
                                             rpc_layer="grpc")

  cluster_1 = tf.train.ClusterSpec({"ps":["ps0.example.com:2222",
                                           "ps1.example.com:2222"]})
  cluster_resolver_1 = SimpleClusterResolver(cluster, task_type="ps",
                                             task_id=0,
                                             rpc_layer="grpc")

  # Its task type would be "worker".
  cluster_resolver = UnionClusterResolver(cluster_resolver_0,
                                          cluster_resolver_1)

在 TFConfigClusterResolver 实例中覆盖 GPU 数量的示例:

tf_config = TFConfigClusterResolver()
  gpu_override = SimpleClusterResolver(tf_config.cluster_spec(),
                                       num_accelerators={"GPU":1})
  cluster_resolver = UnionResolver(gpu_override, tf_config)

相关用法


注:本文由纯净天空筛选整理自tensorflow.org大神的英文原创作品 tf.distribute.cluster_resolver.UnionResolver。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。