Python PySpark SQL Functions mean方法用法及代碼示例

PySpark SQL 函數的 mean(~) 方法返回指定列中的平均值。

參數

1.col | string 或 Column

要在其中獲取平均值的列。

返回值

PySpark 列 (pyspark.sql.column.Column)。

例子

考慮以下PySpark DataFrame：

df = spark.createDataFrame([["Alex", 25], ["Bob", 30]], ["name", "age"])
df.show()



+----+---+
|name|age|
+----+---+
|Alex| 25|
| Bob| 30|
+----+---+

獲取 PySpark 列的平均值

要獲取平均值 age ：

import pyspark.sql.functions as F
df.select(F.mean("age")).show()



+--------+
|avg(age)|
+--------+
|    27.5|
+--------+

要將 age 的平均值作為整數獲取：

list_rows = df.select(F.mean("age")).collect()
list_rows[0][0]



27.5

在這裏，我們使用 collect() 方法將從 select(~) 返回的 PySpark DataFrame 轉換為 Row 對象列表。該列表的大小保證為 1，因為 mean(~) 將列值縮減為單個數字。為了訪問 Row 對象的內容，我們使用另一個 [0] 。

獲取PySpark中每個組的平均值

考慮以下PySpark DataFrame：

df = spark.createDataFrame([["Alex", 20, "A"],\
                            ["Bob", 30, "B"],\
                            ["Cathy", 50, "A"]],
                            ["name", "age", "class"])
df.show()



+-----+---+-----+
| name|age|class|
+-----+---+-----+
| Alex| 20|    A|
|  Bob| 30|    B|
|Cathy| 50|    A|
+-----+---+-----+

要獲取每個 class 的平均值 age：

df.groupby("class").agg(F.mean("age").alias("MEAN AGE")).show()



+-----+--------+
|class|MEAN AGE|
+-----+--------+
|    A|    35.0|
|    B|    30.0|
+-----+--------+

在這裏，我們使用 alias("MEAN AGE") 為聚合的 age 列分配標簽。

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 PySpark SQL Functions | mean method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。