本文简要介绍
pyspark.sql.DataFrame.sample
的用法。用法:
DataFrame.sample(withReplacement=None, fraction=None, seed=None)
返回此
DataFrame
的采样子集。版本 1.3.0 中的新函数。
- withReplacement:布尔型,可选
是否有替换样本(默认
False
)。- fraction:浮点数,可选
要生成的行的分数,范围 [0.0, 1.0]。
- seed:整数,可选
用于采样的种子(默认为随机种子)。
参数:
注意:
这不能保证准确提供给定
DataFrame
总计数中指定的分数。fraction
是必需的,withReplacement
和seed
是可选的。例子:
>>> df = spark.range(10) >>> df.sample(0.5, 3).count() 7 >>> df.sample(fraction=0.5, seed=3).count() 7 >>> df.sample(withReplacement=True, fraction=0.5, seed=3).count() 1 >>> df.sample(1.0).count() 10 >>> df.sample(fraction=1.0).count() 10 >>> df.sample(False, fraction=1.0).count() 10
相关用法
- Python pyspark DataFrame.sampleBy用法及代码示例
- Python pyspark DataFrame.sameSemantics用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.sort_index用法及代码示例
- Python pyspark DataFrame.sem用法及代码示例
- Python pyspark DataFrame.sort_values用法及代码示例
- Python pyspark DataFrame.select用法及代码示例
- Python pyspark DataFrame.style用法及代码示例
- Python pyspark DataFrame.spark.to_table用法及代码示例
- Python pyspark DataFrame.sortWithinPartitions用法及代码示例
- Python pyspark DataFrame.skew用法及代码示例
- Python pyspark DataFrame.spark.frame用法及代码示例
- Python pyspark DataFrame.set_index用法及代码示例
- Python pyspark DataFrame.sub用法及代码示例
- Python pyspark DataFrame.shape用法及代码示例
- Python pyspark DataFrame.std用法及代码示例
- Python pyspark DataFrame.spark.cache用法及代码示例
- Python pyspark DataFrame.schema用法及代码示例
- Python pyspark DataFrame.spark.persist用法及代码示例
- Python pyspark DataFrame.size用法及代码示例
- Python pyspark DataFrame.spark.to_spark_io用法及代码示例
- Python pyspark DataFrame.show用法及代码示例
- Python pyspark DataFrame.summary用法及代码示例
- Python pyspark DataFrame.spark.coalesce用法及代码示例
- Python pyspark DataFrame.semanticHash用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.sample。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。