Python pyspark DataFrame.dropna用法及代码示例

本文简要介绍 pyspark.pandas.DataFrame.dropna 的用法。

用法: DataFrame.dropna(axis: Union[int, str] = 0, how: str = 'any', thresh: Optional[int] = None, subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]

删除缺失值。

参数：

axis：{0 或 ‘index’}，默认 0

确定是否删除了包含缺失值的行或列。

0 或‘index’：删除包含缺失值的行。

how：{‘any’, ‘all’}，默认 ‘any’

当我们至少有一个 NA 或全部 NA 时，确定是否从 DataFrame 中删除行或列。

‘any’：如果存在任何 NA 值，请删除该行或列。
‘all’：如果所有值都是 NA，则删除该行或列。

thresh：整数，可选

需要许多非 NA 值。

subset：类似数组，可选

沿其他轴考虑的标签，例如如果您要删除行，这些将是要包含的列列表。

inplace：布尔值，默认为 False

如果为 True，则在原地执行操作并返回 None。

DataFrame: DataFrame 中删除了 NA 条目。

例子：

>>> df = ps.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
...                    "toy": [None, 'Batmobile', 'Bullwhip'],
...                    "born": [None, "1940-04-25", None]},
...                   columns=['name', 'toy', 'born'])
>>> df
       name        toy        born
0    Alfred       None        None
1    Batman  Batmobile  1940-04-25
2  Catwoman   Bullwhip        None

删除至少缺少一个元素的行。

>>> df.dropna()
     name        toy        born
1  Batman  Batmobile  1940-04-25

删除至少缺少一个元素的列。

>>> df.dropna(axis='columns')
       name
0    Alfred
1    Batman
2  Catwoman

删除缺少所有元素的行。

>>> df.dropna(how='all')
       name        toy        born
0    Alfred       None        None
1    Batman  Batmobile  1940-04-25
2  Catwoman   Bullwhip        None

只保留至少有 2 个非 NA 值的行。

>>> df.dropna(thresh=2)
       name        toy        born
1    Batman  Batmobile  1940-04-25
2  Catwoman   Bullwhip        None

定义在哪些列中查找缺失值。

>>> df.dropna(subset=['name', 'born'])
     name        toy        born
1  Batman  Batmobile  1940-04-25

将 DataFrame 与有效条目保留在同一变量中。

>>> df.dropna(inplace=True)
>>> df
     name        toy        born
1  Batman  Batmobile  1940-04-25

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.dropna。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：