Python cudf.Series.value_counts用法及代码示例

用法: Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

返回一个包含唯一值计数的系列。

结果对象将按降序排列，因此第一个元素是最多的 frequently-occurring 元素。默认情况下排除 NA 值。

参数：

normalize：布尔值，默认为 False: 如果为 True，则返回的对象将包含唯一值的相对频率。
sort：布尔值，默认为真: 按频率排序。
ascending：布尔值，默认为 False: 按升序排列。
bins：整数，可选: 不是计算值，而是将它们分组到半开的箱中，使用数字数据。尚不支持此参数。
dropna：布尔值，默认为真: 不要包括 NaN 和 None 的计数。

result：包含唯一值计数的系列。

例子：

>>> import cudf
>>> sr = cudf.Series([1.0, 2.0, 2.0, 3.0, 3.0, 3.0, None])
>>> sr
0     1.0
1     2.0
2     2.0
3     3.0
4     3.0
5     3.0
6    <NA>
dtype: float64
>>> sr.value_counts()
3.0    3
2.0    2
1.0    1
dtype: int32

可以通过传递 ascending=True 来更改计数的顺序：

>>> sr.value_counts(ascending=True)
1.0    1
2.0    2
3.0    3
dtype: int32

normalize 设置为 True，通过将所有值除以值的总和来返回相对频率。

>>> sr.value_counts(normalize=True)
3.0    0.500000
2.0    0.333333
1.0    0.166667
dtype: float64

要包括 NA 值计数，请传递 dropna=False ：

>>> sr = cudf.Series([1.0, 2.0, 2.0, 3.0, None, 3.0, 3.0, None])
>>> sr
0     1.0
1     2.0
2     2.0
3     3.0
4    <NA>
5     3.0
6     3.0
7    <NA>
dtype: float64
>>> sr.value_counts(dropna=False)
3.0     3
2.0     2
<NA>    2
1.0     1
dtype: int32

相关用法

注：本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.Series.value_counts。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：