Python dask.dataframe.Series.value_counts用法及代碼示例

用法: Series.value_counts(sort=None, ascending=False, dropna=None, normalize=False, split_every=None, split_out=1)

返回一個包含唯一值計數的係列。

此文檔字符串是從 pandas.core.series.Series.value_counts 複製而來的。

可能存在與 Dask 版本的一些不一致之處。

注意：dropna 僅在 pandas >= 1.1.0 中受支持，在這種情況下它默認為 True。

結果對象將按降序排列，因此第一個元素是最多的 frequently-occurring 元素。默認情況下排除 NA 值。

>>> index = pd.Index([3, 1, 2, 3, 4, np.nan])  
>>> index.value_counts()  
3.0    2
1.0    1
2.0    1
4.0    1
dtype: int64

將 normalize 設置為 True 時，通過將所有值除以值的總和來返回相對頻率。

>>> s = pd.Series([3, 1, 2, 3, 4, np.nan])  
>>> s.value_counts(normalize=True)  
3.0    0.4
1.0    0.2
2.0    0.2
4.0    0.2
dtype: float64

箱子

箱對於從連續變量到分類變量很有用；而不是計算值的唯一幻影，而是將索引劃分為指定數量的半開箱。

>>> s.value_counts(bins=3)  
(0.996, 2.0]    2
(2.0, 3.0]      2
(3.0, 4.0]      1
dtype: int64

dropna

將 dropna 設置為 False 我們還可以看到 NaN 索引值。

>>> s.value_counts(dropna=False)  
3.0    2
1.0    1
2.0    1
4.0    1
NaN    1
dtype: int64

相關用法

注：本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.Series.value_counts。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。