本文簡要介紹
pyspark.pandas.DataFrame.dropna
的用法。用法:
DataFrame.dropna(axis: Union[int, str] = 0, how: str = 'any', thresh: Optional[int] = None, subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]
刪除缺失值。
- axis:{0 或 ‘index’},默認 0
確定是否刪除了包含缺失值的行或列。
0 或‘index’:刪除包含缺失值的行。
- how:{‘any’, ‘all’},默認 ‘any’
當我們至少有一個 NA 或全部 NA 時,確定是否從 DataFrame 中刪除行或列。
‘any’:如果存在任何 NA 值,請刪除該行或列。
‘all’:如果所有值都是 NA,則刪除該行或列。
- thresh:整數,可選
需要許多非 NA 值。
- subset:類似數組,可選
沿其他軸考慮的標簽,例如如果您要刪除行,這些將是要包含的列列表。
- inplace:布爾值,默認為 False
如果為 True,則在原地執行操作並返回 None。
- DataFrame
DataFrame 中刪除了 NA 條目。
參數:
返回:
例子:
>>> df = ps.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'], ... "toy": [None, 'Batmobile', 'Bullwhip'], ... "born": [None, "1940-04-25", None]}, ... columns=['name', 'toy', 'born']) >>> df name toy born 0 Alfred None None 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip None
刪除至少缺少一個元素的行。
>>> df.dropna() name toy born 1 Batman Batmobile 1940-04-25
刪除至少缺少一個元素的列。
>>> df.dropna(axis='columns') name 0 Alfred 1 Batman 2 Catwoman
刪除缺少所有元素的行。
>>> df.dropna(how='all') name toy born 0 Alfred None None 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip None
隻保留至少有 2 個非 NA 值的行。
>>> df.dropna(thresh=2) name toy born 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip None
定義在哪些列中查找缺失值。
>>> df.dropna(subset=['name', 'born']) name toy born 1 Batman Batmobile 1940-04-25
將 DataFrame 與有效條目保留在同一變量中。
>>> df.dropna(inplace=True) >>> df name toy born 1 Batman Batmobile 1940-04-25
相關用法
- Python pyspark DataFrame.dropna用法及代碼示例
- Python pyspark DataFrame.dropDuplicates用法及代碼示例
- Python pyspark DataFrame.drop_duplicates用法及代碼示例
- Python pyspark DataFrame.drop用法及代碼示例
- Python pyspark DataFrame.droplevel用法及代碼示例
- Python pyspark DataFrame.div用法及代碼示例
- Python pyspark DataFrame.dtypes用法及代碼示例
- Python pyspark DataFrame.duplicated用法及代碼示例
- Python pyspark DataFrame.distinct用法及代碼示例
- Python pyspark DataFrame.describe用法及代碼示例
- Python pyspark DataFrame.diff用法及代碼示例
- Python pyspark DataFrame.dot用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark DataFrame.cumsum用法及代碼示例
- Python pyspark DataFrame.iloc用法及代碼示例
- Python pyspark DataFrame.printSchema用法及代碼示例
- Python pyspark DataFrame.to_table用法及代碼示例
- Python pyspark DataFrame.rmod用法及代碼示例
- Python pyspark DataFrame.to_pandas用法及代碼示例
- Python pyspark DataFrame.sum用法及代碼示例
- Python pyspark DataFrame.transform用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.dropna。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。