本文简要介绍
pyspark.sql.functions.percentile_approx
的用法。用法:
pyspark.sql.functions.percentile_approx(col, percentage, accuracy=10000)
返回数字列
col
的近似值percentile
,它是排序的col
值中的最小值(从小到大排序),使得col
值中不超过percentage
小于该值或等于该值。百分比的值必须介于 0.0 和 1.0 之间。精度参数(默认值:10000)是一个正数值文字,它以内存为代价控制近似精度。较高的准确度值产生更好的准确度,1.0/准确度是近似值的相对误差。
当百分比为数组时,百分比数组的每个值必须介于 0.0 和 1.0 之间。在这种情况下,返回给定百分比数组中列 col 的近似百分比数组。
版本 3.1.0 中的新函数。
例子:
>>> key = (col("id") % 3).alias("key") >>> value = (randn(42) + key * 10).alias("value") >>> df = spark.range(0, 1000, 1, 1).select(key, value) >>> df.select( ... percentile_approx("value", [0.25, 0.5, 0.75], 1000000).alias("quantiles") ... ).printSchema() root |-- quantiles: array (nullable = true) | |-- element: double (containsNull = false)
>>> df.groupBy("key").agg( ... percentile_approx("value", 0.5, lit(1000000)).alias("median") ... ).printSchema() root |-- key: long (nullable = true) |-- median: double (nullable = true)
相关用法
- Python pyspark posexplode用法及代码示例
- Python pyspark posexplode_outer用法及代码示例
- Python pyspark product用法及代码示例
- Python pyspark pandas_udf用法及代码示例
- Python pyspark create_map用法及代码示例
- Python pyspark date_add用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataStreamReader.schema用法及代码示例
- Python pyspark MultiIndex.size用法及代码示例
- Python pyspark arrays_overlap用法及代码示例
- Python pyspark Series.asof用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark Index.is_monotonic_decreasing用法及代码示例
- Python pyspark IsotonicRegression用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark element_at用法及代码示例
- Python pyspark explode用法及代码示例
- Python pyspark MultiIndex.hasnans用法及代码示例
- Python pyspark Series.to_frame用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark Column.withField用法及代码示例
- Python pyspark Index.values用法及代码示例
- Python pyspark Index.drop_duplicates用法及代码示例
- Python pyspark aggregate用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.functions.percentile_approx。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。