当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark RDD.takeSample用法及代码示例


本文简要介绍 pyspark.RDD.takeSample 的用法。

用法:

RDD.takeSample(withReplacement, num, seed=None)

返回此 RDD 的固定大小的采样子集。

注意

仅当预期结果数组很小时才应使用此方法,因为所有数据都加载到驱动程序的内存中。

例子

>>> rdd = sc.parallelize(range(0, 10))
>>> len(rdd.takeSample(True, 20, 1))
20
>>> len(rdd.takeSample(False, 5, 2))
5
>>> len(rdd.takeSample(False, 15, 3))
10

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.takeSample。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。