當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.quantile用法及代碼示例


本文簡要介紹 pyspark.pandas.DataFrame.quantile 的用法。

用法:

DataFrame.quantile(q: Union[float, Iterable[float]] = 0.5, axis: Union[int, str] = 0, numeric_only: bool = True, accuracy: int = 10000) → Union[DataFrame, Series]

返回給定分位數的值。

注意

與 pandas 不同,pandas-on-Spark 中的分位數是基於近似百分位數計算的近似分位數,因為跨大型數據集計算分位數非常昂貴。

參數

q浮點型或類似數組,默認 0.5(50% 分位數)

0 <= q <= 1,要計算的分位數。

axisint或str,默認0或‘index’

目前隻能設置為0。

numeric_only布爾值,默認為真

如果為 False,還將計算 datetime 和 timedelta 數據的分位數。目前隻能設置為True。

accuracy整數,可選

近似的默認精度。較大的值意味著更好的準確性。相對誤差可以推導出 1.0/accuracy。

返回

係列或DataFrame

如果 q 是一個數組,則將返回 DataFrame,其中索引是 q,列是 self 的列,值是分位數。如果 q 是浮點數,則將返回一個 Series,其中索引是 self 的列,值是分位數。

例子

>>> psdf = ps.DataFrame({'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8, 9, 0]})
>>> psdf
   a  b
0  1  6
1  2  7
2  3  8
3  4  9
4  5  0
>>> psdf.quantile(.5)
a    3.0
b    7.0
Name: 0.5, dtype: float64
>>> psdf.quantile([.25, .5, .75])
        a    b
0.25  2.0  6.0
0.50  3.0  7.0
0.75  4.0  8.0

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.quantile。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。