Python pyspark DataFrame.sampleBy用法及代码示例

本文简要介绍 pyspark.sql.DataFrame.sampleBy 的用法。

用法: DataFrame.sampleBy(col, fractions, seed=None)

根据每个层上给出的分数返回分层样本而不进行替换。

1.5.0 版中的新函数。

参数：

col： Column 或 str: 定义层的列

在 3.0 版中更改：通过一列添加采样Column
fractions：dict: 每个层的抽样分数。如果未指定层，我们将其分数视为零。
seed：整数，可选: 随机种子

代表分层样本的新 DataFrame

例子：

>>> from pyspark.sql.functions import col
>>> dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key"))
>>> sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
>>> sampled.groupBy("key").count().orderBy("key").show()
+---+-----+
|key|count|
+---+-----+
|  0|    3|
|  1|    6|
+---+-----+
>>> dataset.sampleBy(col("key"), fractions={2: 1.0}, seed=0).count()
33

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.sampleBy。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：