當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PyTorch EtcdRendezvousHandler用法及代碼示例


本文簡要介紹python語言中 torch.distributed.elastic.rendezvous.etcd_rendezvous.EtcdRendezvousHandler 的用法。

用法:

class torch.distributed.elastic.rendezvous.etcd_rendezvous.EtcdRendezvousHandler(rdzv_impl)

實現由 torch.distributed.elastic.rendezvous.etcd_rendezvous.EtcdRendezvous 支持的 torch.distributed.elastic.rendezvous.RendezvousHandler 接口。 EtcdRendezvousHandler 使用 URL 來配置要使用的集合點類型,並將實現特定配置傳遞給集合點模塊。基本的 etcd rendezvous 配置 URL 如下所示

etcd://<etcd_address>:<port>/<job_id>?min_workers=<min_workers>&max_workers=<max_workers>  # noqa: W605

-- example --

etcd://localhost:2379/1234?min_workers=1&max_workers=3

上麵的 URL 解釋如下:

  1. 使用在 etcd 方案中注冊的集合處理程序

  2. 要使用的etcd 端點是localhost:2379

  3. job_id == 1234 用作 etcd 中的前綴(隻要保證 job_ids 是唯一的,這允許一個人為多個作業共享一個公共 etcd 服務器)。請注意,作業 ID 可以是任何字符串(例如,不需要是數字),隻要它是唯一的即可。

  4. min_workers=1max_workers=3 指定成員大小的範圍 - 隻要集群大小大於或等於 min_workers 並允許最多 max_workers 進入集群,Torch Distributed Elastic 就會開始運行作業。

以下是可以傳遞給 etcd 集合點的參數的完整列表:

參數

說明

min_workers

集合點有效的最小工人數

max_workers

允許的最大工人數量

timeout

next_rendezvous 預計成功的總超時時間(默認 600 秒)

last_call_timeout

達到最小工人數後的額外等待量(“last call”)(默認為 30 秒)

etcd_prefix

路徑前綴(來自 etcd 根目錄),將在其中創建所有 etcd 節點(默認為 /torchelastic/p2p )

相關用法


注:本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torch.distributed.elastic.rendezvous.etcd_rendezvous.EtcdRendezvousHandler。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。