当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch EtcdRendezvousHandler用法及代码示例


本文简要介绍python语言中 torch.distributed.elastic.rendezvous.etcd_rendezvous.EtcdRendezvousHandler 的用法。

用法:

class torch.distributed.elastic.rendezvous.etcd_rendezvous.EtcdRendezvousHandler(rdzv_impl)

实现由 torch.distributed.elastic.rendezvous.etcd_rendezvous.EtcdRendezvous 支持的 torch.distributed.elastic.rendezvous.RendezvousHandler 接口。 EtcdRendezvousHandler 使用 URL 来配置要使用的集合点类型,并将实现特定配置传递给集合点模块。基本的 etcd rendezvous 配置 URL 如下所示

etcd://<etcd_address>:<port>/<job_id>?min_workers=<min_workers>&max_workers=<max_workers>  # noqa: W605

-- example --

etcd://localhost:2379/1234?min_workers=1&max_workers=3

上面的 URL 解释如下:

  1. 使用在 etcd 方案中注册的集合处理程序

  2. 要使用的etcd 端点是localhost:2379

  3. job_id == 1234 用作 etcd 中的前缀(只要保证 job_ids 是唯一的,这允许一个人为多个作业共享一个公共 etcd 服务器)。请注意,作业 ID 可以是任何字符串(例如,不需要是数字),只要它是唯一的即可。

  4. min_workers=1max_workers=3 指定成员大小的范围 - 只要集群大小大于或等于 min_workers 并允许最多 max_workers 进入集群,Torch Distributed Elastic 就会开始运行作业。

以下是可以传递给 etcd 集合点的参数的完整列表:

参数

说明

min_workers

集合点有效的最小工人数

max_workers

允许的最大工人数量

timeout

next_rendezvous 预计成功的总超时时间(默认 600 秒)

last_call_timeout

达到最小工人数后的额外等待量(“last call”)(默认为 30 秒)

etcd_prefix

路径前缀(来自 etcd 根目录),将在其中创建所有 etcd 节点(默认为 /torchelastic/p2p )

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torch.distributed.elastic.rendezvous.etcd_rendezvous.EtcdRendezvousHandler。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。