本文簡要介紹
pyspark.pandas.Series.sample
的用法。用法:
Series.sample(n: Optional[int] = None, frac: Optional[float] = None, replace: bool = False, random_state: Optional[int] = None) → pyspark.pandas.series.Series
從對象的軸返回項目的隨機樣本。
請通過指定
frac
參數使用命名參數調用此函數。您可以使用
random_state
來獲得重現性。但是,請注意,與 pandas 不同,在 pandas-on-Spark/Spark 中指定種子並不能保證采樣的行將被固定。結果集不僅取決於種子,還取決於數據在機器之間的分布方式,以及涉及 shuffle 操作時的網絡隨機性。即使在最簡單的情況下,結果集也將取決於係統的 CPU 核心數。- n:整數,可選
要返回的項目數。目前不支持此函數。請改用 frac。
- frac:浮點數,可選
要返回的軸項目的分數。
- replace:布爾值,默認為 False
有或沒有更換的樣品。
- random_state:整數,可選
隨機數生成器的種子(如果是 int)。
- 係列或DataFrame
一個與調用者類型相同的新對象,其中包含采樣項。
參數:
返回:
例子:
>>> df = ps.DataFrame({'num_legs': [2, 4, 8, 0], ... 'num_wings': [2, 0, 0, 0], ... 'num_specimen_seen': [10, 2, 1, 8]}, ... index=['falcon', 'dog', 'spider', 'fish'], ... columns=['num_legs', 'num_wings', 'num_specimen_seen']) >>> df num_legs num_wings num_specimen_seen falcon 2 2 10 dog 4 0 2 spider 8 0 1 fish 0 0 8
DataFrame
的隨機 25% 樣本。請注意,我們使用random_state
來確保示例的可重複性。>>> df.sample(frac=0.25, random_state=1) num_legs num_wings num_specimen_seen falcon 2 2 10 fish 0 0 8
從
Series
df['num_legs']
中提取 25% 的隨機元素,並進行替換,因此相同的項目可能會出現多次。>>> df['num_legs'].sample(frac=0.4, replace=True, random_state=1) falcon 2 spider 8 spider 8 Name: num_legs, dtype: int64
目前不支持指定要退回的確切商品數量。
>>> df.sample(n=5) Traceback (most recent call last): ... NotImplementedError: Function sample currently does not support specifying ...
相關用法
- Python pyspark Series.str.join用法及代碼示例
- Python pyspark Series.str.startswith用法及代碼示例
- Python pyspark Series.sub用法及代碼示例
- Python pyspark Series.sum用法及代碼示例
- Python pyspark Series.str.slice_replace用法及代碼示例
- Python pyspark Series.str.rjust用法及代碼示例
- Python pyspark Series.sem用法及代碼示例
- Python pyspark Series.sort_values用法及代碼示例
- Python pyspark Series.str.lstrip用法及代碼示例
- Python pyspark Series.squeeze用法及代碼示例
- Python pyspark Series.str.len用法及代碼示例
- Python pyspark Series.str.slice用法及代碼示例
- Python pyspark Series.str.isnumeric用法及代碼示例
- Python pyspark Series.str.endswith用法及代碼示例
- Python pyspark Series.str.swapcase用法及代碼示例
- Python pyspark Series.str.isdecimal用法及代碼示例
- Python pyspark Series.str.rstrip用法及代碼示例
- Python pyspark Series.str.istitle用法及代碼示例
- Python pyspark Series.skew用法及代碼示例
- Python pyspark Series.str.match用法及代碼示例
- Python pyspark Series.str.rindex用法及代碼示例
- Python pyspark Series.swaplevel用法及代碼示例
- Python pyspark Series.str.rsplit用法及代碼示例
- Python pyspark Series.std用法及代碼示例
- Python pyspark Series.str.strip用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.Series.sample。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。