当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch WorkerState用法及代码示例


本文简要介绍python语言中 torch.distributed.elastic.agent.server.WorkerState 的用法。

用法:

class torch.distributed.elastic.agent.server.WorkerState(value)

WorkerGroup 的状态。工作组中的工作人员作为一个单元更改状态。如果工作组中的单个工作人员失败,则整个集合都被视为失败:

UNKNOWN - agent lost track of worker group state, unrecoverable
INIT - worker group object created not yet started
HEALTHY - workers running and healthy
UNHEALTHY - workers running and unhealthy
STOPPED - workers stopped (interruped) by the agent
SUCCEEDED - workers finished running (exit 0)
FAILED - workers failed to successfully finish (exit !0)

工作组从初始状态INIT 开始,然后进展到HEALTHYUNHEALTHY 状态,最后到达终端SUCCEEDEDFAILED 状态。

工作组可以被代理中断并暂时进入STOPPED状态。处于STOPPED 状态的工作人员计划在不久的将来由代理重新启动。一些工人被置于STOPPED状态的例子是:

  1. 工作组失败|观察到不健康

  2. 检测到成员资格更改

当工作组上的操作(启动、停止、rdzv、重试等)失败并导致该操作部分应用于工作组时,状态将为 UNKNOWN 。通常,这发生在代理上的状态更改事件期间未捕获/未处理的异常上。代理预计不会恢复处于UNKNOWN 状态的工作组,最好自行终止并允许作业管理器重试节点。

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torch.distributed.elastic.agent.server.WorkerState。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。