用法:
dask.dataframe.reshape.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=<class 'numpy.uint8'>, **kwargs)
将分类变量转换为虚拟/指标变量。
数据必须具有类别 dtype 才能推断结果的
columns
。- data:系列或 DataFrame
对于 Series,dtype 必须是分类的。对于 DataFrame,至少有一列必须是分类的。
- prefix:字符串、字符串列表或字符串字典,默认无
附加 DataFrame 列名的字符串。在 DataFrame 上调用 get_dummies 时,传递一个长度等于列数的列表。或者,
prefix
可以是将列名映射到前缀的字典。- prefix_sep:字符串,默认 ‘_’
如果附加前缀,则使用分隔符/定界符。或者像
prefix.
一样传递一个列表或字典- dummy_na:布尔值,默认为 False
如果忽略 False NaN,则添加一列以指示 NaN。
- columns:list-like,默认无
要编码的 DataFrame 中的列名。如果
columns
为 None 则所有具有category
dtype 的列都将被转换。- sparse:布尔值,默认为 False
虚拟列是否应该稀疏。如果
data
是一个系列或者如果包含所有列,则返回 SparseDataFrame。否则返回带有一些 SparseBlocks 的 DataFrame。- drop_first:布尔值,默认为 False
是否通过删除第一级从 k 个分类级别中取出 k-1 个虚拟变量。
- dtype:dtype,默认 np.uint8
新列的数据类型。只允许使用一个 dtype。
- dummies: DataFrame
参数:
返回:
例子:
Dask 的版本仅适用于分类数据,因为这是在不计算所有数据的情况下了解输出形状的唯一方法。
>>> import pandas as pd >>> import dask.dataframe as dd >>> s = dd.from_pandas(pd.Series(list('abca')), npartitions=2) >>> dd.get_dummies(s) Traceback (most recent call last): ... NotImplementedError: `get_dummies` with non-categorical dtypes is not supported...
使用分类数据:
>>> s = dd.from_pandas(pd.Series(list('abca'), dtype='category'), npartitions=2) >>> dd.get_dummies(s) Dask DataFrame Structure: a b c npartitions=2 0 uint8 uint8 uint8 2 ... ... ... 3 ... ... ... Dask Name: get_dummies, 4 tasks >>> dd.get_dummies(s).compute() a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0
相关用法
- Python dask.dataframe.read_table用法及代码示例
- Python dask.dataframe.read_hdf用法及代码示例
- Python dask.dataframe.read_json用法及代码示例
- Python dask.dataframe.read_fwf用法及代码示例
- Python dask.dataframe.read_sql_table用法及代码示例
- Python dask.dataframe.read_parquet用法及代码示例
- Python dask.dataframe.read_csv用法及代码示例
- Python dask.dataframe.read_orc用法及代码示例
- Python dask.dataframe.rolling.Rolling.var用法及代码示例
- Python dask.dataframe.rolling.Rolling.count用法及代码示例
- Python dask.dataframe.rolling.Rolling.min用法及代码示例
- Python dask.dataframe.rolling.Rolling.quantile用法及代码示例
- Python dask.dataframe.rolling.Rolling.std用法及代码示例
- Python dask.dataframe.rolling.Rolling.sum用法及代码示例
- Python dask.dataframe.rolling.Rolling.kurt用法及代码示例
- Python dask.dataframe.rolling.Rolling.mean用法及代码示例
- Python dask.dataframe.rolling.Rolling.median用法及代码示例
- Python dask.dataframe.Series.apply用法及代码示例
- Python dask.dataframe.to_records用法及代码示例
- Python dask.dataframe.DataFrame.applymap用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.reshape.get_dummies。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。