Python pyspark percentile_approx用法及代码示例

本文简要介绍 pyspark.sql.functions.percentile_approx 的用法。

用法: pyspark.sql.functions.percentile_approx(col, percentage, accuracy=10000)

返回数字列 col 的近似值 percentile，它是排序的 col 值中的最小值(从小到大排序)，使得 col 值中不超过 percentage 小于该值或等于该值。百分比的值必须介于 0.0 和 1.0 之间。

精度参数(默认值：10000)是一个正数值文字，它以内存为代价控制近似精度。较高的准确度值产生更好的准确度，1.0/准确度是近似值的相对误差。

当百分比为数组时，百分比数组的每个值必须介于 0.0 和 1.0 之间。在这种情况下，返回给定百分比数组中列 col 的近似百分比数组。

版本 3.1.0 中的新函数。

例子：

>>> key = (col("id") % 3).alias("key")
>>> value = (randn(42) + key * 10).alias("value")
>>> df = spark.range(0, 1000, 1, 1).select(key, value)
>>> df.select(
...     percentile_approx("value", [0.25, 0.5, 0.75], 1000000).alias("quantiles")
... ).printSchema()
root
 |-- quantiles: array (nullable = true)
 |    |-- element: double (containsNull = false)

>>> df.groupBy("key").agg(
...     percentile_approx("value", 0.5, lit(1000000)).alias("median")
... ).printSchema()
root
 |-- key: long (nullable = true)
 |-- median: double (nullable = true)

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.functions.percentile_approx。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。