Python pyspark RDD.sample用法及代码示例

本文简要介绍 pyspark.RDD.sample 的用法。

用法: RDD.sample(withReplacement, fraction, seed=None)

返回此 RDD 的采样子集。

withReplacement：bool: 元素是否可以多次采样(采样出来时替换)
fraction：浮点数: 样本的预期大小作为该 RDD 大小的一部分而无需替换：每个元素被选择的概率；分数必须是 [0, 1] 替换：每个元素被选择的预期次数；分数必须 >= 0
seed：整数，可选: 随机数生成器的种子

这不能保证准确提供给定 DataFrame 总计数中指定的分数。

>>> rdd = sc.parallelize(range(100), 4)
>>> 6 <= rdd.sample(False, 0.1, 81).count() <= 14
True

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.sample。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。