本文簡要介紹
pyspark.sql.functions.percentile_approx
的用法。用法:
pyspark.sql.functions.percentile_approx(col, percentage, accuracy=10000)
返回數字列
col
的近似值percentile
,它是排序的col
值中的最小值(從小到大排序),使得col
值中不超過percentage
小於該值或等於該值。百分比的值必須介於 0.0 和 1.0 之間。精度參數(默認值:10000)是一個正數值文字,它以內存為代價控製近似精度。較高的準確度值產生更好的準確度,1.0/準確度是近似值的相對誤差。
當百分比為數組時,百分比數組的每個值必須介於 0.0 和 1.0 之間。在這種情況下,返回給定百分比數組中列 col 的近似百分比數組。
版本 3.1.0 中的新函數。
例子:
>>> key = (col("id") % 3).alias("key") >>> value = (randn(42) + key * 10).alias("value") >>> df = spark.range(0, 1000, 1, 1).select(key, value) >>> df.select( ... percentile_approx("value", [0.25, 0.5, 0.75], 1000000).alias("quantiles") ... ).printSchema() root |-- quantiles: array (nullable = true) | |-- element: double (containsNull = false)
>>> df.groupBy("key").agg( ... percentile_approx("value", 0.5, lit(1000000)).alias("median") ... ).printSchema() root |-- key: long (nullable = true) |-- median: double (nullable = true)
相關用法
- Python pyspark posexplode用法及代碼示例
- Python pyspark posexplode_outer用法及代碼示例
- Python pyspark product用法及代碼示例
- Python pyspark pandas_udf用法及代碼示例
- Python pyspark create_map用法及代碼示例
- Python pyspark date_add用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataStreamReader.schema用法及代碼示例
- Python pyspark MultiIndex.size用法及代碼示例
- Python pyspark arrays_overlap用法及代碼示例
- Python pyspark Series.asof用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark Index.is_monotonic_decreasing用法及代碼示例
- Python pyspark IsotonicRegression用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark element_at用法及代碼示例
- Python pyspark explode用法及代碼示例
- Python pyspark MultiIndex.hasnans用法及代碼示例
- Python pyspark Series.to_frame用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark Column.withField用法及代碼示例
- Python pyspark Index.values用法及代碼示例
- Python pyspark Index.drop_duplicates用法及代碼示例
- Python pyspark aggregate用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.functions.percentile_approx。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。