當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame用法及代碼示例


本文簡要介紹 pyspark.sql.DataFrame 的用法。

用法:

class pyspark.sql.DataFrame(jdf, sql_ctx)

分組到命名列的分布式數據集合。

DataFrame 相當於 Spark SQL 中的關係表,可以使用 SparkSession 中的各種函數創建:

people = spark.read.parquet("...")

創建後,可以使用 DataFrame Column 中定義的各種 domain-specific-language (DSL) 函數對其進行操作。

要從 DataFrame 選擇列,請使用 apply 方法:

ageCol = people.age

一個更具體的例子:

# To create DataFrame using SparkSession
people = spark.read.parquet("...")
department = spark.read.parquet("...")

people.filter(people.age > 30).join(department, people.deptId == department.id) \
  .groupBy(department.name, "gender").agg({"salary": "avg", "age": "max"})

版本 1.3.0 中的新函數。

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。