Python pyspark SeriesGroupBy.value_counts用法及代碼示例

本文簡要介紹 pyspark.pandas.groupby.SeriesGroupBy.value_counts 的用法。

用法: SeriesGroupBy.value_counts(sort: Optional[bool] = None, ascending: Optional[bool] = None, dropna: bool = True) → pyspark.pandas.series.Series

計算組大小。

參數：

sort：布爾值，默認無: 按頻率排序。
ascending：布爾值，默認為 False: 按升序排列。
dropna：布爾值，默認 True: 不包括 NaN 的計數。

例子：

>>> df = ps.DataFrame({'A': [1, 2, 2, 3, 3, 3],
...                    'B': [1, 1, 2, 3, 3, 3]},
...                   columns=['A', 'B'])
>>> df
   A  B
0  1  1
1  2  1
2  2  2
3  3  3
4  3  3
5  3  3

>>> df.groupby('A')['B'].value_counts().sort_index()  
A  B
1  1    1
2  1    1
   2    1
3  3    3
Name: B, dtype: int64

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.groupby.SeriesGroupBy.value_counts。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。