當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark RDD.sample用法及代碼示例


本文簡要介紹 pyspark.RDD.sample 的用法。

用法:

RDD.sample(withReplacement, fraction, seed=None)

返回此 RDD 的采樣子集。

參數

withReplacementbool

元素是否可以多次采樣(采樣出來時替換)

fraction浮點數

樣本的預期大小作為該 RDD 大小的一部分而無需替換:每個元素被選擇的概率;分數必須是 [0, 1] 替換:每個元素被選擇的預期次數;分數必須 >= 0

seed整數,可選

隨機數生成器的種子

注意

這不能保證準確提供給定 DataFrame 總計數中指定的分數。

例子

>>> rdd = sc.parallelize(range(100), 4)
>>> 6 <= rdd.sample(False, 0.1, 81).count() <= 14
True

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.RDD.sample。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。