Python pyspark DataFrame.sampleBy用法及代碼示例

本文簡要介紹 pyspark.sql.DataFrame.sampleBy 的用法。

用法: DataFrame.sampleBy(col, fractions, seed=None)

根據每個層上給出的分數返回分層樣本而不進行替換。

1.5.0 版中的新函數。

參數：

col： Column 或 str: 定義層的列

在 3.0 版中更改：通過一列添加采樣Column
fractions：dict: 每個層的抽樣分數。如果未指定層，我們將其分數視為零。
seed：整數，可選: 隨機種子

代表分層樣本的新 DataFrame

例子：

>>> from pyspark.sql.functions import col
>>> dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key"))
>>> sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
>>> sampled.groupBy("key").count().orderBy("key").show()
+---+-----+
|key|count|
+---+-----+
|  0|    3|
|  1|    6|
+---+-----+
>>> dataset.sampleBy(col("key"), fractions={2: 1.0}, seed=0).count()
33

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.sampleBy。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：