本文簡要介紹
pyspark.sql.DataFrame.sample
的用法。用法:
DataFrame.sample(withReplacement=None, fraction=None, seed=None)
返回此
DataFrame
的采樣子集。版本 1.3.0 中的新函數。
- withReplacement:布爾型,可選
是否有替換樣本(默認
False
)。- fraction:浮點數,可選
要生成的行的分數,範圍 [0.0, 1.0]。
- seed:整數,可選
用於采樣的種子(默認為隨機種子)。
參數:
注意:
這不能保證準確提供給定
DataFrame
總計數中指定的分數。fraction
是必需的,withReplacement
和seed
是可選的。例子:
>>> df = spark.range(10) >>> df.sample(0.5, 3).count() 7 >>> df.sample(fraction=0.5, seed=3).count() 7 >>> df.sample(withReplacement=True, fraction=0.5, seed=3).count() 1 >>> df.sample(1.0).count() 10 >>> df.sample(fraction=1.0).count() 10 >>> df.sample(False, fraction=1.0).count() 10
相關用法
- Python pyspark DataFrame.sampleBy用法及代碼示例
- Python pyspark DataFrame.sameSemantics用法及代碼示例
- Python pyspark DataFrame.sum用法及代碼示例
- Python pyspark DataFrame.sort_index用法及代碼示例
- Python pyspark DataFrame.sem用法及代碼示例
- Python pyspark DataFrame.sort_values用法及代碼示例
- Python pyspark DataFrame.select用法及代碼示例
- Python pyspark DataFrame.style用法及代碼示例
- Python pyspark DataFrame.spark.to_table用法及代碼示例
- Python pyspark DataFrame.sortWithinPartitions用法及代碼示例
- Python pyspark DataFrame.skew用法及代碼示例
- Python pyspark DataFrame.spark.frame用法及代碼示例
- Python pyspark DataFrame.set_index用法及代碼示例
- Python pyspark DataFrame.sub用法及代碼示例
- Python pyspark DataFrame.shape用法及代碼示例
- Python pyspark DataFrame.std用法及代碼示例
- Python pyspark DataFrame.spark.cache用法及代碼示例
- Python pyspark DataFrame.schema用法及代碼示例
- Python pyspark DataFrame.spark.persist用法及代碼示例
- Python pyspark DataFrame.size用法及代碼示例
- Python pyspark DataFrame.spark.to_spark_io用法及代碼示例
- Python pyspark DataFrame.show用法及代碼示例
- Python pyspark DataFrame.summary用法及代碼示例
- Python pyspark DataFrame.spark.coalesce用法及代碼示例
- Python pyspark DataFrame.semanticHash用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.sample。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。