本文簡要介紹
pyspark.sql.DataFrameNaFunctions.replace
的用法。用法:
DataFrameNaFunctions.replace(to_replace, value=<no value>, subset=None)
返回一個新的
DataFrame
,用另一個值替換一個值。DataFrame.replace()
和DataFrameNaFunctions.replace()
互為別名。值 to_replace 和 value 必須具有相同的類型,並且隻能是數字、布爾值或字符串。值可以為 None。替換時,新值將轉換為現有列的類型。對於數字替換,所有要替換的值都應具有唯一的浮點表示形式。如果發生衝突(例如與{42: -1, 42.0: 1}
),將使用任意替換。1.4.0 版中的新函數。
- to_replace:bool、int、float、string、list 或 dict
要替換的值。如果 value 是一個 dict,那麽
value
將被忽略或可以省略,並且to_replace
必須是 value 和 replace 之間的映射。- value:bool、int、float、string 或 None,可選
替換值必須是 bool、int、float、string 或 None。如果
value
是一個列表,則value
的長度和類型應與to_replace
相同。如果value
是標量且to_replace
是序列,則value
用作to_replace
中每個項目的替換。- subset:列表,可選
要考慮的列名的可選列表。子集中指定的不具有匹配數據類型的列將被忽略。例如,如果
value
是一個字符串,並且子集包含一個非字符串列,則簡單地忽略非字符串列。
參數:
例子:
>>> df4.na.replace(10, 20).show() +----+------+-----+ | age|height| name| +----+------+-----+ | 20| 80|Alice| | 5| null| Bob| |null| null| Tom| |null| null| null| +----+------+-----+
>>> df4.na.replace('Alice', None).show() +----+------+----+ | age|height|name| +----+------+----+ | 10| 80|null| | 5| null| Bob| |null| null| Tom| |null| null|null| +----+------+----+
>>> df4.na.replace({'Alice': None}).show() +----+------+----+ | age|height|name| +----+------+----+ | 10| 80|null| | 5| null| Bob| |null| null| Tom| |null| null|null| +----+------+----+
>>> df4.na.replace(['Alice', 'Bob'], ['A', 'B'], 'name').show() +----+------+----+ | age|height|name| +----+------+----+ | 10| 80| A| | 5| null| B| |null| null| Tom| |null| null|null| +----+------+----+
相關用法
- Python pyspark DataFrameNaFunctions.fill用法及代碼示例
- Python pyspark DataFrameNaFunctions.drop用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark DataFrameWriter.partitionBy用法及代碼示例
- Python pyspark DataFrame.cumsum用法及代碼示例
- Python pyspark DataFrame.iloc用法及代碼示例
- Python pyspark DataFrame.dropDuplicates用法及代碼示例
- Python pyspark DataFrame.printSchema用法及代碼示例
- Python pyspark DataFrame.to_table用法及代碼示例
- Python pyspark DataFrame.rmod用法及代碼示例
- Python pyspark DataFrame.div用法及代碼示例
- Python pyspark DataFrame.drop_duplicates用法及代碼示例
- Python pyspark DataFrame.to_pandas用法及代碼示例
- Python pyspark DataFrame.sum用法及代碼示例
- Python pyspark DataFrame.transform用法及代碼示例
- Python pyspark DataFrame.get用法及代碼示例
- Python pyspark DataFrame.rsub用法及代碼示例
- Python pyspark DataFrame.pandas_on_spark.apply_batch用法及代碼示例
- Python pyspark DataFrameWriter.bucketBy用法及代碼示例
- Python pyspark DataFrame.groupBy用法及代碼示例
- Python pyspark DataFrame.head用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrameNaFunctions.replace。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。