當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.sampleBy用法及代碼示例


本文簡要介紹 pyspark.sql.DataFrame.sampleBy 的用法。

用法:

DataFrame.sampleBy(col, fractions, seed=None)

根據每個層上給出的分數返回分層樣本而不進行替換。

1.5.0 版中的新函數。

參數

col Column 或 str

定義層的列

在 3.0 版中更改:通過一列添加采樣Column

fractionsdict

每個層的抽樣分數。如果未指定層,我們將其分數視為零。

seed整數,可選

隨機種子

返回

代表分層樣本的新 DataFrame

例子

>>> from pyspark.sql.functions import col
>>> dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key"))
>>> sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
>>> sampled.groupBy("key").count().orderBy("key").show()
+---+-----+
|key|count|
+---+-----+
|  0|    3|
|  1|    6|
+---+-----+
>>> dataset.sampleBy(col("key"), fractions={2: 1.0}, seed=0).count()
33

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.sampleBy。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。