当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.sampleBy用法及代码示例


本文简要介绍 pyspark.sql.DataFrame.sampleBy 的用法。

用法:

DataFrame.sampleBy(col, fractions, seed=None)

根据每个层上给出的分数返回分层样本而不进行替换。

1.5.0 版中的新函数。

参数

col Column 或 str

定义层的列

在 3.0 版中更改:通过一列添加采样Column

fractionsdict

每个层的抽样分数。如果未指定层,我们将其分数视为零。

seed整数,可选

随机种子

返回

代表分层样本的新 DataFrame

例子

>>> from pyspark.sql.functions import col
>>> dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key"))
>>> sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
>>> sampled.groupBy("key").count().orderBy("key").show()
+---+-----+
|key|count|
+---+-----+
|  0|    3|
|  1|    6|
+---+-----+
>>> dataset.sampleBy(col("key"), fractions={2: 1.0}, seed=0).count()
33

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.sampleBy。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。