本文簡要介紹
pyspark.pandas.get_dummies
的用法。用法:
pyspark.pandas.get_dummies(data: Union[pyspark.pandas.frame.DataFrame, pyspark.pandas.series.Series], prefix: Union[str, List[str], Dict[str, str], None] = None, prefix_sep: str = '_', dummy_na: bool = False, columns: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, sparse: bool = False, drop_first: bool = False, dtype: Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype, None] = None) → pyspark.pandas.frame.DataFrame
將分類變量轉換為虛擬/指標變量,也稱為一次熱編碼。
- data:類似數組、係列或DataFrame
- prefix:字符串、字符串列表或字符串字典,默認無
用於附加 DataFrame 列名稱的字符串。在 DataFrame 上調用 get_dummies 時,傳遞長度等於列數的列表。或者,
prefix
可以是將列名映射到前綴的字典。- prefix_sep:字符串,默認 ‘_’
如果附加前綴,則使用分隔符/定界符。或者像
prefix.
一樣傳遞一個列表或字典- dummy_na:布爾值,默認為 False
如果忽略 False NaNs,則添加一列來指示 NaN。
- columns:list-like,默認無
DataFrame 中要編碼的列名稱。如果
columns
為 None,則所有具有object
或category
dtype 的列都將被轉換。- sparse:布爾值,默認為 False
dummy-encoded 列是否應由
SparseArray
(True) 或常規 NumPy 數組支持 (False)。在pandas-on-Spark中,該值必須是“False”。- drop_first:布爾值,默認為 False
是否通過刪除第一級從 k 個分類級別中取出 k-1 個虛擬變量。
- dtype:dtype,默認 np.uint8
新列的數據類型。隻允許使用一個 dtype。
- dummies:DataFrame
參數:
返回:
例子:
>>> s = ps.Series(list('abca'))
>>> ps.get_dummies(s) a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0
>>> df = ps.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], ... 'C': [1, 2, 3]}, ... columns=['A', 'B', 'C'])
>>> ps.get_dummies(df, prefix=['col1', 'col2']) C col1_a col1_b col2_a col2_b col2_c 0 1 1 0 0 1 0 1 2 0 1 1 0 0 2 3 1 0 0 0 1
>>> ps.get_dummies(ps.Series(list('abcaa'))) a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 4 1 0 0
>>> ps.get_dummies(ps.Series(list('abcaa')), drop_first=True) b c 0 0 0 1 1 0 2 0 1 3 0 0 4 0 0
>>> ps.get_dummies(ps.Series(list('abc')), dtype=float) a b c 0 1.0 0.0 0.0 1 0.0 1.0 0.0 2 0.0 0.0 1.0
相關用法
- Python pyspark get_json_object用法及代碼示例
- Python pyspark grouping用法及代碼示例
- Python pyspark greatest用法及代碼示例
- Python pyspark grouping_id用法及代碼示例
- Python pyspark create_map用法及代碼示例
- Python pyspark date_add用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataStreamReader.schema用法及代碼示例
- Python pyspark MultiIndex.size用法及代碼示例
- Python pyspark arrays_overlap用法及代碼示例
- Python pyspark Series.asof用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark Index.is_monotonic_decreasing用法及代碼示例
- Python pyspark IsotonicRegression用法及代碼示例
- Python pyspark DataFrame.plot.bar用法及代碼示例
- Python pyspark DataFrame.to_delta用法及代碼示例
- Python pyspark element_at用法及代碼示例
- Python pyspark explode用法及代碼示例
- Python pyspark MultiIndex.hasnans用法及代碼示例
- Python pyspark Series.to_frame用法及代碼示例
- Python pyspark DataFrame.quantile用法及代碼示例
- Python pyspark Column.withField用法及代碼示例
- Python pyspark Index.values用法及代碼示例
- Python pyspark Index.drop_duplicates用法及代碼示例
- Python pyspark aggregate用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.get_dummies。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。