Python pyspark percentile_approx用法及代碼示例

本文簡要介紹 pyspark.sql.functions.percentile_approx 的用法。

用法: pyspark.sql.functions.percentile_approx(col, percentage, accuracy=10000)

返回數字列 col 的近似值 percentile，它是排序的 col 值中的最小值(從小到大排序)，使得 col 值中不超過 percentage 小於該值或等於該值。百分比的值必須介於 0.0 和 1.0 之間。

精度參數(默認值：10000)是一個正數值文字，它以內存為代價控製近似精度。較高的準確度值產生更好的準確度，1.0/準確度是近似值的相對誤差。

當百分比為數組時，百分比數組的每個值必須介於 0.0 和 1.0 之間。在這種情況下，返回給定百分比數組中列 col 的近似百分比數組。

版本 3.1.0 中的新函數。

例子：

>>> key = (col("id") % 3).alias("key")
>>> value = (randn(42) + key * 10).alias("value")
>>> df = spark.range(0, 1000, 1, 1).select(key, value)
>>> df.select(
...     percentile_approx("value", [0.25, 0.5, 0.75], 1000000).alias("quantiles")
... ).printSchema()
root
 |-- quantiles: array (nullable = true)
 |    |-- element: double (containsNull = false)

>>> df.groupBy("key").agg(
...     percentile_approx("value", 0.5, lit(1000000)).alias("median")
... ).printSchema()
root
 |-- key: long (nullable = true)
 |-- median: double (nullable = true)

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.functions.percentile_approx。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。