當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrameNaFunctions.replace用法及代碼示例


本文簡要介紹 pyspark.sql.DataFrameNaFunctions.replace 的用法。

用法:

DataFrameNaFunctions.replace(to_replace, value=<no value>, subset=None)

返回一個新的 DataFrame ,用另一個值替換一個值。 DataFrame.replace() DataFrameNaFunctions.replace() 互為別名。值 to_replace 和 value 必須具有相同的類型,並且隻能是數字、布爾值或字符串。值可以為 None。替換時,新值將轉換為現有列的類型。對於數字替換,所有要替換的值都應具有唯一的浮點表示形式。如果發生衝突(例如與 {42: -1, 42.0: 1} ),將使用任意替換。

1.4.0 版中的新函數。

參數

to_replacebool、int、float、string、list 或 dict

要替換的值。如果 value 是一個 dict,那麽 value 將被忽略或可以省略,並且 to_replace 必須是 value 和 replace 之間的映射。

valuebool、int、float、string 或 None,可選

替換值必須是 bool、int、float、string 或 None。如果 value 是一個列表,則 value 的長度和類型應與 to_replace 相同。如果 value 是標量且 to_replace 是序列,則 value 用作 to_replace 中每個項目的替換。

subset列表,可選

要考慮的列名的可選列表。子集中指定的不具有匹配數據類型的列將被忽略。例如,如果value 是一個字符串,並且子集包含一個非字符串列,則簡單地忽略非字符串列。

例子

>>> df4.na.replace(10, 20).show()
+----+------+-----+
| age|height| name|
+----+------+-----+
|  20|    80|Alice|
|   5|  null|  Bob|
|null|  null|  Tom|
|null|  null| null|
+----+------+-----+
>>> df4.na.replace('Alice', None).show()
+----+------+----+
| age|height|name|
+----+------+----+
|  10|    80|null|
|   5|  null| Bob|
|null|  null| Tom|
|null|  null|null|
+----+------+----+
>>> df4.na.replace({'Alice': None}).show()
+----+------+----+
| age|height|name|
+----+------+----+
|  10|    80|null|
|   5|  null| Bob|
|null|  null| Tom|
|null|  null|null|
+----+------+----+
>>> df4.na.replace(['Alice', 'Bob'], ['A', 'B'], 'name').show()
+----+------+----+
| age|height|name|
+----+------+----+
|  10|    80|   A|
|   5|  null|   B|
|null|  null| Tom|
|null|  null|null|
+----+------+----+

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrameNaFunctions.replace。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。