本文簡要介紹python語言中 torch.distributed.elastic.agent.server.WorkerState
的用法。
用法:
class torch.distributed.elastic.agent.server.WorkerState(value)
WorkerGroup
的狀態。工作組中的工作人員作為一個單元更改狀態。如果工作組中的單個工作人員失敗,則整個集合都被視為失敗:UNKNOWN - agent lost track of worker group state, unrecoverable INIT - worker group object created not yet started HEALTHY - workers running and healthy UNHEALTHY - workers running and unhealthy STOPPED - workers stopped (interruped) by the agent SUCCEEDED - workers finished running (exit 0) FAILED - workers failed to successfully finish (exit !0)
工作組從初始狀態
INIT
開始,然後進展到HEALTHY
或UNHEALTHY
狀態,最後到達終端SUCCEEDED
或FAILED
狀態。工作組可以被代理中斷並暫時進入
STOPPED
狀態。處於STOPPED
狀態的工作人員計劃在不久的將來由代理重新啟動。一些工人被置於STOPPED
狀態的例子是:工作組失敗|觀察到不健康
檢測到成員資格更改
當工作組上的操作(啟動、停止、rdzv、重試等)失敗並導致該操作部分應用於工作組時,狀態將為
UNKNOWN
。通常,這發生在代理上的狀態更改事件期間未捕獲/未處理的異常上。代理預計不會恢複處於UNKNOWN
狀態的工作組,最好自行終止並允許作業管理器重試節點。
相關用法
- Python PyTorch Wav2Vec2Bundle用法及代碼示例
- Python PyTorch WeightedRandomSampler用法及代碼示例
- Python PyTorch WaveRNN用法及代碼示例
- Python PyTorch Wav2Vec2ASRBundle.get_labels用法及代碼示例
- Python PyTorch Wav2Vec2ASRBundle用法及代碼示例
- Python PyTorch WIDERFace用法及代碼示例
- Python PyTorch Weibull用法及代碼示例
- Python PyTorch frexp用法及代碼示例
- Python PyTorch jvp用法及代碼示例
- Python PyTorch cholesky用法及代碼示例
- Python PyTorch vdot用法及代碼示例
- Python PyTorch ELU用法及代碼示例
- Python PyTorch ScaledDotProduct.__init__用法及代碼示例
- Python PyTorch gumbel_softmax用法及代碼示例
- Python PyTorch get_tokenizer用法及代碼示例
- Python PyTorch saved_tensors_hooks用法及代碼示例
- Python PyTorch positive用法及代碼示例
- Python PyTorch renorm用法及代碼示例
- Python PyTorch AvgPool2d用法及代碼示例
- Python PyTorch MaxUnpool3d用法及代碼示例
- Python PyTorch Bernoulli用法及代碼示例
- Python PyTorch Tensor.unflatten用法及代碼示例
- Python PyTorch Sigmoid用法及代碼示例
- Python PyTorch Tensor.register_hook用法及代碼示例
- Python PyTorch ShardedEmbeddingBagCollection.named_parameters用法及代碼示例
注:本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torch.distributed.elastic.agent.server.WorkerState。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。