本文简要介绍
pyspark.pandas.DataFrame.median
的用法。用法:
DataFrame.median(axis: Union[int, str, None] = None, numeric_only: bool = None, accuracy: int = 10000) → Union[int, float, bool, str, bytes, decimal.Decimal, datetime.date, datetime.datetime, None, Series]
返回请求轴的值的中值。
注意
与 pandas 不同,pandas-on-Spark 中的中位数是基于近似百分位数计算的近似中位数,因为在大型数据集上计算中位数非常昂贵。
- axis:{索引 (0), 列 (1)}
要应用的函数的轴。
- numeric_only:布尔值,默认无
仅包括 float、int、boolean 列。不支持 False。这个参数主要是为了pandas的兼容性。
- accuracy:整数,可选
近似的默认精度。较大的值意味着更好的准确性。相对误差可以推导出 1.0/accuracy。
- median:标量或系列
参数:
返回:
例子:
>>> df = ps.DataFrame({ ... 'a': [24., 21., 25., 33., 26.], 'b': [1, 2, 3, 4, 5]}, columns=['a', 'b']) >>> df a b 0 24.0 1 1 21.0 2 2 25.0 3 3 33.0 4 4 26.0 5
在数据帧上:
>>> df.median() a 25.0 b 3.0 dtype: float64
在一个系列上:
>>> df['a'].median() 25.0 >>> (df['b'] + 100).median() 103.0
对于多索引列,
>>> df.columns = pd.MultiIndex.from_tuples([('x', 'a'), ('y', 'b')]) >>> df x y a b 0 24.0 1 1 21.0 2 2 25.0 3 3 33.0 4 4 26.0 5
在数据帧上:
>>> df.median() x a 25.0 y b 3.0 dtype: float64
>>> df.median(axis=1) 0 12.5 1 11.5 2 14.0 3 18.5 4 15.5 dtype: float64
在一个系列上:
>>> df[('x', 'a')].median() 25.0 >>> (df[('y', 'b')] + 100).median() 103.0
相关用法
- Python pyspark DataFrame.mean用法及代码示例
- Python pyspark DataFrame.melt用法及代码示例
- Python pyspark DataFrame.merge用法及代码示例
- Python pyspark DataFrame.mapInPandas用法及代码示例
- Python pyspark DataFrame.mad用法及代码示例
- Python pyspark DataFrame.max用法及代码示例
- Python pyspark DataFrame.mask用法及代码示例
- Python pyspark DataFrame.min用法及代码示例
- Python pyspark DataFrame.mod用法及代码示例
- Python pyspark DataFrame.mul用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.div用法及代码示例
- Python pyspark DataFrame.drop_duplicates用法及代码示例
- Python pyspark DataFrame.to_pandas用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.median。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。