本文簡要介紹
pyspark.sql.DataFrame.sampleBy
的用法。用法:
DataFrame.sampleBy(col, fractions, seed=None)
根據每個層上給出的分數返回分層樣本而不進行替換。
1.5.0 版中的新函數。
- 代表分層樣本的新
DataFrame
- 代表分層樣本的新
參數:
返回:
例子:
>>> from pyspark.sql.functions import col >>> dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key")) >>> sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0) >>> sampled.groupBy("key").count().orderBy("key").show() +---+-----+ |key|count| +---+-----+ | 0| 3| | 1| 6| +---+-----+ >>> dataset.sampleBy(col("key"), fractions={2: 1.0}, seed=0).count() 33
相關用法
- Python pyspark DataFrame.sample用法及代碼示例
- Python pyspark DataFrame.sameSemantics用法及代碼示例
- Python pyspark DataFrame.sum用法及代碼示例
- Python pyspark DataFrame.sort_index用法及代碼示例
- Python pyspark DataFrame.sem用法及代碼示例
- Python pyspark DataFrame.sort_values用法及代碼示例
- Python pyspark DataFrame.select用法及代碼示例
- Python pyspark DataFrame.style用法及代碼示例
- Python pyspark DataFrame.spark.to_table用法及代碼示例
- Python pyspark DataFrame.sortWithinPartitions用法及代碼示例
- Python pyspark DataFrame.skew用法及代碼示例
- Python pyspark DataFrame.spark.frame用法及代碼示例
- Python pyspark DataFrame.set_index用法及代碼示例
- Python pyspark DataFrame.sub用法及代碼示例
- Python pyspark DataFrame.shape用法及代碼示例
- Python pyspark DataFrame.std用法及代碼示例
- Python pyspark DataFrame.spark.cache用法及代碼示例
- Python pyspark DataFrame.schema用法及代碼示例
- Python pyspark DataFrame.spark.persist用法及代碼示例
- Python pyspark DataFrame.size用法及代碼示例
- Python pyspark DataFrame.spark.to_spark_io用法及代碼示例
- Python pyspark DataFrame.show用法及代碼示例
- Python pyspark DataFrame.summary用法及代碼示例
- Python pyspark DataFrame.spark.coalesce用法及代碼示例
- Python pyspark DataFrame.semanticHash用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.DataFrame.sampleBy。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。