PySpark SQL 函数的 count(~)
是一种聚合方法,与 agg(~)
方法结合使用来计算每个组中的项目数。
参数
1.col
| string
或 Column
要执行计数的列。
返回值
新的 PySpark 列。
例子
考虑以下PySpark DataFrame:
df = spark.createDataFrame([['Alex','A'],['Bob','B'],['Cathy','A']], ['name','class'])
df.show()
+-----+-----+
| name|class|
+-----+-----+
| Alex| A|
| Bob| B|
|Cathy| A|
+-----+-----+
计算每组中的项目数
要计算每个 class
组的行数:
import pyspark.sql.functions as F
df.groupBy('class').agg(F.count('class').alias('COUNT')).show()
+-----+-----+
|class|COUNT|
+-----+-----+
| A| 2|
| B| 1|
+-----+-----+
在此,请注意以下事项:
-
我们首先使用
groupBy(~)
按class
列进行分组,然后对于每个组,我们计算有多少行。从技术上讲,我们正在计算每个组中class
值的数量 (F.count('class')
),但这相当于只计算每个组中的行数。 -
我们使用
alias(~)
方法为生成的聚合列分配标签。请注意,分配的默认标签是'count'
。
相关用法
- Python PySpark SQL Functions count_distinct方法用法及代码示例
- Python PySpark SQL Functions countDistinct方法用法及代码示例
- Python PySpark SQL Functions concat方法用法及代码示例
- Python PySpark SQL Functions concat_ws方法用法及代码示例
- Python PySpark SQL Functions col方法用法及代码示例
- Python PySpark SQL Functions collect_list方法用法及代码示例
- Python PySpark SQL Functions collect_set方法用法及代码示例
- Python PySpark SQL Functions split方法用法及代码示例
- Python PySpark SQL Functions repeat方法用法及代码示例
- Python PySpark SQL Functions explode方法用法及代码示例
- Python PySpark SQL Functions instr方法用法及代码示例
- Python PySpark SQL Functions dayofmonth方法用法及代码示例
- Python PySpark SQL Functions date_add方法用法及代码示例
- Python PySpark SQL Functions array方法用法及代码示例
- Python PySpark SQL Functions translate方法用法及代码示例
- Python PySpark SQL Functions dayofweek方法用法及代码示例
- Python PySpark SQL Functions expr方法用法及代码示例
- Python PySpark SQL Functions regexp_extract方法用法及代码示例
- Python PySpark SQL Functions regexp_replace方法用法及代码示例
- Python PySpark SQL Functions round方法用法及代码示例
- Python PySpark SQL Functions date_format方法用法及代码示例
- Python PySpark SQL Functions lit方法用法及代码示例
- Python PySpark SQL Functions upper方法用法及代码示例
- Python PySpark SQL Functions length方法用法及代码示例
- Python PySpark SQL Functions dayofyear方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 PySpark SQL Functions | count method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。