本文简要介绍
pyspark.sql.DataFrame.sampleBy
的用法。用法:
DataFrame.sampleBy(col, fractions, seed=None)
根据每个层上给出的分数返回分层样本而不进行替换。
1.5.0 版中的新函数。
- 代表分层样本的新
DataFrame
- 代表分层样本的新
参数:
返回:
例子:
>>> from pyspark.sql.functions import col >>> dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key")) >>> sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0) >>> sampled.groupBy("key").count().orderBy("key").show() +---+-----+ |key|count| +---+-----+ | 0| 3| | 1| 6| +---+-----+ >>> dataset.sampleBy(col("key"), fractions={2: 1.0}, seed=0).count() 33
相关用法
- Python pyspark DataFrame.sample用法及代码示例
- Python pyspark DataFrame.sameSemantics用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.sort_index用法及代码示例
- Python pyspark DataFrame.sem用法及代码示例
- Python pyspark DataFrame.sort_values用法及代码示例
- Python pyspark DataFrame.select用法及代码示例
- Python pyspark DataFrame.style用法及代码示例
- Python pyspark DataFrame.spark.to_table用法及代码示例
- Python pyspark DataFrame.sortWithinPartitions用法及代码示例
- Python pyspark DataFrame.skew用法及代码示例
- Python pyspark DataFrame.spark.frame用法及代码示例
- Python pyspark DataFrame.set_index用法及代码示例
- Python pyspark DataFrame.sub用法及代码示例
- Python pyspark DataFrame.shape用法及代码示例
- Python pyspark DataFrame.std用法及代码示例
- Python pyspark DataFrame.spark.cache用法及代码示例
- Python pyspark DataFrame.schema用法及代码示例
- Python pyspark DataFrame.spark.persist用法及代码示例
- Python pyspark DataFrame.size用法及代码示例
- Python pyspark DataFrame.spark.to_spark_io用法及代码示例
- Python pyspark DataFrame.show用法及代码示例
- Python pyspark DataFrame.summary用法及代码示例
- Python pyspark DataFrame.spark.coalesce用法及代码示例
- Python pyspark DataFrame.semanticHash用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.sql.DataFrame.sampleBy。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。