本文简要介绍python语言中 torch.distributed.elastic.agent.server.WorkerState
的用法。
用法:
class torch.distributed.elastic.agent.server.WorkerState(value)
WorkerGroup
的状态。工作组中的工作人员作为一个单元更改状态。如果工作组中的单个工作人员失败,则整个集合都被视为失败:UNKNOWN - agent lost track of worker group state, unrecoverable INIT - worker group object created not yet started HEALTHY - workers running and healthy UNHEALTHY - workers running and unhealthy STOPPED - workers stopped (interruped) by the agent SUCCEEDED - workers finished running (exit 0) FAILED - workers failed to successfully finish (exit !0)
工作组从初始状态
INIT
开始,然后进展到HEALTHY
或UNHEALTHY
状态,最后到达终端SUCCEEDED
或FAILED
状态。工作组可以被代理中断并暂时进入
STOPPED
状态。处于STOPPED
状态的工作人员计划在不久的将来由代理重新启动。一些工人被置于STOPPED
状态的例子是:工作组失败|观察到不健康
检测到成员资格更改
当工作组上的操作(启动、停止、rdzv、重试等)失败并导致该操作部分应用于工作组时,状态将为
UNKNOWN
。通常,这发生在代理上的状态更改事件期间未捕获/未处理的异常上。代理预计不会恢复处于UNKNOWN
状态的工作组,最好自行终止并允许作业管理器重试节点。
相关用法
- Python PyTorch Wav2Vec2Bundle用法及代码示例
- Python PyTorch WeightedRandomSampler用法及代码示例
- Python PyTorch WaveRNN用法及代码示例
- Python PyTorch Wav2Vec2ASRBundle.get_labels用法及代码示例
- Python PyTorch Wav2Vec2ASRBundle用法及代码示例
- Python PyTorch WIDERFace用法及代码示例
- Python PyTorch Weibull用法及代码示例
- Python PyTorch frexp用法及代码示例
- Python PyTorch jvp用法及代码示例
- Python PyTorch cholesky用法及代码示例
- Python PyTorch vdot用法及代码示例
- Python PyTorch ELU用法及代码示例
- Python PyTorch ScaledDotProduct.__init__用法及代码示例
- Python PyTorch gumbel_softmax用法及代码示例
- Python PyTorch get_tokenizer用法及代码示例
- Python PyTorch saved_tensors_hooks用法及代码示例
- Python PyTorch positive用法及代码示例
- Python PyTorch renorm用法及代码示例
- Python PyTorch AvgPool2d用法及代码示例
- Python PyTorch MaxUnpool3d用法及代码示例
- Python PyTorch Bernoulli用法及代码示例
- Python PyTorch Tensor.unflatten用法及代码示例
- Python PyTorch Sigmoid用法及代码示例
- Python PyTorch Tensor.register_hook用法及代码示例
- Python PyTorch ShardedEmbeddingBagCollection.named_parameters用法及代码示例
注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torch.distributed.elastic.agent.server.WorkerState。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。