當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python tf.distribute.cluster_resolver.GCEClusterResolver用法及代碼示例


穀歌計算引擎的 ClusterResolver。

繼承自:ClusterResolver

用法

tf.distribute.cluster_resolver.GCEClusterResolver(
    project, zone, instance_group, port, task_type='worker', task_id=0,
    rpc_layer='grpc', credentials='default', service=None
)

參數

  • project GCE 項目的名稱。
  • zone GCE實例組的Zone。
  • instance_group GCE 實例組的名稱。
  • port 監聽 TensorFlow 服務器的端口(默認:8470)
  • task_type 此 GCE 實例組 VM 實例所屬的 TensorFlow 作業的名稱。
  • task_id GCE 實例組中此特定 VM 的任務索引。特別是,每個實例都應該在實例組中手動分配一個唯一的序號索引,以便它們可以相互區分。
  • rpc_layer TensorFlow 應該使用 RPC 層來跨實例進行通信。
  • credentials GCE 證書。如果未指定任何內容,則默認為 GoogleCredentials.get_application_default()。
  • service googleapiclient.discovery 函數返回的 GCE API 對象。 (默認:discovery.build('compute', 'v1'))。如果您指定自定義服務對象,則憑據參數將被忽略。

拋出

  • ImportError 如果未安裝 googleapiclient。

屬性

  • environment 返回 TensorFlow 運行的當前環境。

    有兩個可能的返回值,"google"(當 TensorFlow 在 Google-internal 環境中運行時)或空字符串(當 TensorFlow 在其他地方運行時)。

    如果您正在實現一個在 Google 環境和開源世界中都可以工作的 ClusterResolver(例如,TPU ClusterResolver 或類似的),您將必須根據環境返回適當的字符串,您必須檢測到該字符串。

    否則,如果您正在實現僅在開源 TensorFlow 中工作的 ClusterResolver,則無需實現此屬性。

  • rpc_layer
  • task_id 返回此任務 IDClusterResolver表示。

    在 TensorFlow 分布式環境中,每個作業可能有一個適用的任務 id,它是實例在其任務類型中的索引。當用戶需要根據任務索引運行特定代碼時,這很有用。例如,

    cluster_spec = tf.train.ClusterSpec({
        "ps":["localhost:2222", "localhost:2223"],
        "worker":["localhost:2224", "localhost:2225", "localhost:2226"]
    })
    
    # SimpleClusterResolver is used here for illustration; other cluster
    # resolvers may be used for other source of task type/id.
    simple_resolver = SimpleClusterResolver(cluster_spec, task_type="worker",
                                            task_id=0)
    
    ...
    
    if cluster_resolver.task_type == 'worker' and cluster_resolver.task_id == 0:
      # Perform something that's only applicable on 'worker' type, id 0. This
      # block will run on this particular instance since we've specified this
      # task to be a 'worker', id 0 in above cluster resolver.
    else:
      # Perform something that's only applicable on other ids. This block will
      # not run on this particular instance.

    如果此類信息不可用或不適用於當前分布式環境(例如使用 tf.distribute.cluster_resolver.TPUClusterResolver 進行訓練),則返回 None

    有關詳細信息,請參閱 tf.distribute.cluster_resolver.ClusterResolver 的類文檔字符串。

  • task_type 返回此任務類型ClusterResolver表示。

    在 TensorFlow 分布式環境中,每個作業都可能有一個適用的任務類型。 TensorFlow 中的有效任務類型包括 'chief':被指定承擔更多責任的工作人員、'worker':用於訓練/評估的常規工作人員、'ps':參數服務器或 'evaluator':評估檢查點的評估程序用於指標。

    有關最常用的'chief' 和'worker' 任務類型的更多信息,請參閱Multi-worker 配置。

    當用戶需要根據任務類型運行特定代碼時,訪問此類信息非常有用。例如,

    cluster_spec = tf.train.ClusterSpec({
        "ps":["localhost:2222", "localhost:2223"],
        "worker":["localhost:2224", "localhost:2225", "localhost:2226"]
    })
    
    # SimpleClusterResolver is used here for illustration; other cluster
    # resolvers may be used for other source of task type/id.
    simple_resolver = SimpleClusterResolver(cluster_spec, task_type="worker",
                                            task_id=1)
    
    ...
    
    if cluster_resolver.task_type == 'worker':
      # Perform something that's only applicable on workers. This block
      # will run on this particular instance since we've specified this task to
      # be a worker in above cluster resolver.
    elif cluster_resolver.task_type == 'ps':
      # Perform something that's only applicable on parameter servers. This
      # block will not run on this particular instance.

    如果此類信息不可用或不適用於當前分布式環境(例如使用 tf.distribute.experimental.TPUStrategy 進行訓練),則返回 None

    有關詳細信息,請參閱 tf.distribute.cluster_resolver.ClusterResolver 的課程文檔。

這是用於 Google Compute Engine 實例組平台的集群解析器的實現。通過指定項目、區域和實例組,這將檢索實例組內所有實例的 IP 地址,並返回適用於分布式 TensorFlow 的 ClusterResolver 對象。

注意:此集群解析程序無法檢索 task_type , task_idrpc_layer 。要將其與 tf.distribute.experimental.MultiWorkerMirroredStrategy 等分配策略一起使用,您需要在構造函數中指定 task_typetask_id

tf.distribute.Strategy 的使用示例:

# On worker 0
  cluster_resolver = GCEClusterResolver("my-project", "us-west1",
                                        "my-instance-group",
                                        task_type="worker", task_id=0)
  strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy(
      cluster_resolver=cluster_resolver)

  # On worker 1
  cluster_resolver = GCEClusterResolver("my-project", "us-west1",
                                        "my-instance-group",
                                        task_type="worker", task_id=1)
  strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy(
      cluster_resolver=cluster_resolver)

相關用法


注:本文由純淨天空篩選整理自tensorflow.org大神的英文原創作品 tf.distribute.cluster_resolver.GCEClusterResolver。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。