Python pyspark DataFrameNaFunctions.replace用法及代碼示例

本文簡要介紹 pyspark.sql.DataFrameNaFunctions.replace 的用法。

用法: DataFrameNaFunctions.replace(to_replace, value=<no value>, subset=None)

返回一個新的 DataFrame ，用另一個值替換一個值。 DataFrame.replace() 和 DataFrameNaFunctions.replace() 互為別名。值 to_replace 和 value 必須具有相同的類型，並且隻能是數字、布爾值或字符串。值可以為 None。替換時，新值將轉換為現有列的類型。對於數字替換，所有要替換的值都應具有唯一的浮點表示形式。如果發生衝突(例如與 {42: -1, 42.0: 1} )，將使用任意替換。

1.4.0 版中的新函數。

參數：

to_replace：bool、int、float、string、list 或 dict: 要替換的值。如果 value 是一個 dict，那麽 value 將被忽略或可以省略，並且 to_replace 必須是 value 和 replace 之間的映射。
value：bool、int、float、string 或 None，可選: 替換值必須是 bool、int、float、string 或 None。如果 value 是一個列表，則 value 的長度和類型應與 to_replace 相同。如果 value 是標量且 to_replace 是序列，則 value 用作 to_replace 中每個項目的替換。
subset：列表，可選: 要考慮的列名的可選列表。子集中指定的不具有匹配數據類型的列將被忽略。例如，如果value 是一個字符串，並且子集包含一個非字符串列，則簡單地忽略非字符串列。

例子：

>>> df4.na.replace(10, 20).show()
+----+------+-----+
| age|height| name|
+----+------+-----+
|  20|    80|Alice|
|   5|  null|  Bob|
|null|  null|  Tom|
|null|  null| null|
+----+------+-----+

>>> df4.na.replace('Alice', None).show()
+----+------+----+
| age|height|name|
+----+------+----+
|  10|    80|null|
|   5|  null| Bob|
|null|  null| Tom|
|null|  null|null|
+----+------+----+

>>> df4.na.replace({'Alice': None}).show()
+----+------+----+
| age|height|name|
+----+------+----+
|  10|    80|null|
|   5|  null| Bob|
|null|  null| Tom|
|null|  null|null|
+----+------+----+

>>> df4.na.replace(['Alice', 'Bob'], ['A', 'B'], 'name').show()
+----+------+----+
| age|height|name|
+----+------+----+
|  10|    80|   A|
|   5|  null|   B|
|null|  null| Tom|
|null|  null|null|
+----+------+----+

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrameNaFunctions.replace。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。