本文简要介绍
pyspark.sql.DataFrameNaFunctions.replace
的用法。用法:
DataFrameNaFunctions.replace(to_replace, value=<no value>, subset=None)
返回一个新的
DataFrame
,用另一个值替换一个值。DataFrame.replace()
和DataFrameNaFunctions.replace()
互为别名。值 to_replace 和 value 必须具有相同的类型,并且只能是数字、布尔值或字符串。值可以为 None。替换时,新值将转换为现有列的类型。对于数字替换,所有要替换的值都应具有唯一的浮点表示形式。如果发生冲突(例如与{42: -1, 42.0: 1}
),将使用任意替换。1.4.0 版中的新函数。
- to_replace:bool、int、float、string、list 或 dict
要替换的值。如果 value 是一个 dict,那么
value
将被忽略或可以省略,并且to_replace
必须是 value 和 replace 之间的映射。- value:bool、int、float、string 或 None,可选
替换值必须是 bool、int、float、string 或 None。如果
value
是一个列表,则value
的长度和类型应与to_replace
相同。如果value
是标量且to_replace
是序列,则value
用作to_replace
中每个项目的替换。- subset:列表,可选
要考虑的列名的可选列表。子集中指定的不具有匹配数据类型的列将被忽略。例如,如果
value
是一个字符串,并且子集包含一个非字符串列,则简单地忽略非字符串列。
参数:
例子:
>>> df4.na.replace(10, 20).show() +----+------+-----+ | age|height| name| +----+------+-----+ | 20| 80|Alice| | 5| null| Bob| |null| null| Tom| |null| null| null| +----+------+-----+
>>> df4.na.replace('Alice', None).show() +----+------+----+ | age|height|name| +----+------+----+ | 10| 80|null| | 5| null| Bob| |null| null| Tom| |null| null|null| +----+------+----+
>>> df4.na.replace({'Alice': None}).show() +----+------+----+ | age|height|name| +----+------+----+ | 10| 80|null| | 5| null| Bob| |null| null| Tom| |null| null|null| +----+------+----+
>>> df4.na.replace(['Alice', 'Bob'], ['A', 'B'], 'name').show() +----+------+----+ | age|height|name| +----+------+----+ | 10| 80| A| | 5| null| B| |null| null| Tom| |null| null|null| +----+------+----+
相关用法
- Python pyspark DataFrameNaFunctions.fill用法及代码示例
- Python pyspark DataFrameNaFunctions.drop用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrameWriter.partitionBy用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.div用法及代码示例
- Python pyspark DataFrame.drop_duplicates用法及代码示例
- Python pyspark DataFrame.to_pandas用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.transform用法及代码示例
- Python pyspark DataFrame.get用法及代码示例
- Python pyspark DataFrame.rsub用法及代码示例
- Python pyspark DataFrame.pandas_on_spark.apply_batch用法及代码示例
- Python pyspark DataFrameWriter.bucketBy用法及代码示例
- Python pyspark DataFrame.groupBy用法及代码示例
- Python pyspark DataFrame.head用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrameNaFunctions.replace。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。