當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.dropna用法及代碼示例

本文簡要介紹 pyspark.pandas.DataFrame.dropna 的用法。

用法:

DataFrame.dropna(axis: Union[int, str] = 0, how: str = 'any', thresh: Optional[int] = None, subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]

刪除缺失值。

參數

axis{0 或 ‘index’},默認 0

確定是否刪除了包含缺失值的行或列。

  • 0 或‘index’:刪除包含缺失值的行。

how{‘any’, ‘all’},默認 ‘any’

當我們至少有一個 NA 或全部 NA 時,確定是否從 DataFrame 中刪除行或列。

  • ‘any’:如果存在任何 NA 值,請刪除該行或列。

  • ‘all’:如果所有值都是 NA,則刪除該行或列。

thresh整數,可選

需要許多非 NA 值。

subset類似數組,可選

沿其他軸考慮的標簽,例如如果您要刪除行,這些將是要包含的列列表。

inplace布爾值,默認為 False

如果為 True,則在原地執行操作並返回 None。

返回

DataFrame

DataFrame 中刪除了 NA 條目。

例子

>>> df = ps.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
...                    "toy": [None, 'Batmobile', 'Bullwhip'],
...                    "born": [None, "1940-04-25", None]},
...                   columns=['name', 'toy', 'born'])
>>> df
       name        toy        born
0    Alfred       None        None
1    Batman  Batmobile  1940-04-25
2  Catwoman   Bullwhip        None

刪除至少缺少一個元素的行。

>>> df.dropna()
     name        toy        born
1  Batman  Batmobile  1940-04-25

刪除至少缺少一個元素的列。

>>> df.dropna(axis='columns')
       name
0    Alfred
1    Batman
2  Catwoman

刪除缺少所有元素的行。

>>> df.dropna(how='all')
       name        toy        born
0    Alfred       None        None
1    Batman  Batmobile  1940-04-25
2  Catwoman   Bullwhip        None

隻保留至少有 2 個非 NA 值的行。

>>> df.dropna(thresh=2)
       name        toy        born
1    Batman  Batmobile  1940-04-25
2  Catwoman   Bullwhip        None

定義在哪些列中查找缺失值。

>>> df.dropna(subset=['name', 'born'])
     name        toy        born
1  Batman  Batmobile  1940-04-25

將 DataFrame 與有效條目保留在同一變量中。

>>> df.dropna(inplace=True)
>>> df
     name        toy        born
1  Batman  Batmobile  1940-04-25

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.dropna。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。