Python pyspark DataFrame用法及代碼示例

本文簡要介紹 pyspark.sql.DataFrame 的用法。

用法: class pyspark.sql.DataFrame(jdf, sql_ctx)

分組到命名列的分布式數據集合。

DataFrame 相當於 Spark SQL 中的關係表，可以使用 SparkSession 中的各種函數創建：

people = spark.read.parquet("...")

創建後，可以使用 DataFrame 、 Column 中定義的各種 domain-specific-language (DSL) 函數對其進行操作。

要從 DataFrame 選擇列，請使用 apply 方法：

ageCol = people.age

一個更具體的例子：

# To create DataFrame using SparkSession
people = spark.read.parquet("...")
department = spark.read.parquet("...")

people.filter(people.age > 30).join(department, people.deptId == department.id) \
  .groupBy(department.name, "gender").agg({"salary": "avg", "age": "max"})

版本 1.3.0 中的新函數。

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。