本文简要介绍
pyspark.pandas.get_dummies
的用法。用法:
pyspark.pandas.get_dummies(data: Union[pyspark.pandas.frame.DataFrame, pyspark.pandas.series.Series], prefix: Union[str, List[str], Dict[str, str], None] = None, prefix_sep: str = '_', dummy_na: bool = False, columns: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, sparse: bool = False, drop_first: bool = False, dtype: Union[str, numpy.dtype, pandas.core.dtypes.base.ExtensionDtype, None] = None) → pyspark.pandas.frame.DataFrame
将分类变量转换为虚拟/指标变量,也称为一次热编码。
- data:类似数组、系列或DataFrame
- prefix:字符串、字符串列表或字符串字典,默认无
用于附加 DataFrame 列名称的字符串。在 DataFrame 上调用 get_dummies 时,传递长度等于列数的列表。或者,
prefix
可以是将列名映射到前缀的字典。- prefix_sep:字符串,默认 ‘_’
如果附加前缀,则使用分隔符/定界符。或者像
prefix.
一样传递一个列表或字典- dummy_na:布尔值,默认为 False
如果忽略 False NaNs,则添加一列来指示 NaN。
- columns:list-like,默认无
DataFrame 中要编码的列名称。如果
columns
为 None,则所有具有object
或category
dtype 的列都将被转换。- sparse:布尔值,默认为 False
dummy-encoded 列是否应由
SparseArray
(True) 或常规 NumPy 数组支持 (False)。在pandas-on-Spark中,该值必须是“False”。- drop_first:布尔值,默认为 False
是否通过删除第一级从 k 个分类级别中取出 k-1 个虚拟变量。
- dtype:dtype,默认 np.uint8
新列的数据类型。只允许使用一个 dtype。
- dummies:DataFrame
参数:
返回:
例子:
>>> s = ps.Series(list('abca'))
>>> ps.get_dummies(s) a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0
>>> df = ps.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], ... 'C': [1, 2, 3]}, ... columns=['A', 'B', 'C'])
>>> ps.get_dummies(df, prefix=['col1', 'col2']) C col1_a col1_b col2_a col2_b col2_c 0 1 1 0 0 1 0 1 2 0 1 1 0 0 2 3 1 0 0 0 1
>>> ps.get_dummies(ps.Series(list('abcaa'))) a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 4 1 0 0
>>> ps.get_dummies(ps.Series(list('abcaa')), drop_first=True) b c 0 0 0 1 1 0 2 0 1 3 0 0 4 0 0
>>> ps.get_dummies(ps.Series(list('abc')), dtype=float) a b c 0 1.0 0.0 0.0 1 0.0 1.0 0.0 2 0.0 0.0 1.0
相关用法
- Python pyspark get_json_object用法及代码示例
- Python pyspark grouping用法及代码示例
- Python pyspark greatest用法及代码示例
- Python pyspark grouping_id用法及代码示例
- Python pyspark create_map用法及代码示例
- Python pyspark date_add用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataStreamReader.schema用法及代码示例
- Python pyspark MultiIndex.size用法及代码示例
- Python pyspark arrays_overlap用法及代码示例
- Python pyspark Series.asof用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark Index.is_monotonic_decreasing用法及代码示例
- Python pyspark IsotonicRegression用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark element_at用法及代码示例
- Python pyspark explode用法及代码示例
- Python pyspark MultiIndex.hasnans用法及代码示例
- Python pyspark Series.to_frame用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark Column.withField用法及代码示例
- Python pyspark Index.values用法及代码示例
- Python pyspark Index.drop_duplicates用法及代码示例
- Python pyspark aggregate用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.get_dummies。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。