當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python PyTorch WorkerState用法及代碼示例

本文簡要介紹python語言中 torch.distributed.elastic.agent.server.WorkerState 的用法。

用法:

class torch.distributed.elastic.agent.server.WorkerState(value)

WorkerGroup 的狀態。工作組中的工作人員作為一個單元更改狀態。如果工作組中的單個工作人員失敗,則整個集合都被視為失敗:

UNKNOWN - agent lost track of worker group state, unrecoverable
INIT - worker group object created not yet started
HEALTHY - workers running and healthy
UNHEALTHY - workers running and unhealthy
STOPPED - workers stopped (interruped) by the agent
SUCCEEDED - workers finished running (exit 0)
FAILED - workers failed to successfully finish (exit !0)

工作組從初始狀態INIT 開始,然後進展到HEALTHYUNHEALTHY 狀態,最後到達終端SUCCEEDEDFAILED 狀態。

工作組可以被代理中斷並暫時進入STOPPED狀態。處於STOPPED 狀態的工作人員計劃在不久的將來由代理重新啟動。一些工人被置於STOPPED狀態的例子是:

  1. 工作組失敗|觀察到不健康

  2. 檢測到成員資格更改

當工作組上的操作(啟動、停止、rdzv、重試等)失敗並導致該操作部分應用於工作組時,狀態將為 UNKNOWN 。通常,這發生在代理上的狀態更改事件期間未捕獲/未處理的異常上。代理預計不會恢複處於UNKNOWN 狀態的工作組,最好自行終止並允許作業管理器重試節點。

相關用法


注:本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torch.distributed.elastic.agent.server.WorkerState。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。