当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask_ml.preprocessing.DummyEncoder用法及代码示例


用法:

class dask_ml.preprocessing.DummyEncoder(columns: Optional[Sequence[Any]] = None, drop_first: bool = False)

虚拟 (one-hot) 对分类列进行编码。

参数

columns顺序,可选

虚拟编码的列。必须是分类数据类型。默认情况下,Dummy 对所有分类 dtype 列进行编码。

drop_first布尔值,默认为 False

是否删除每列中的第一个类别。

属性

columns_ index

虚拟编码前训练数据中的列

transformed_columns_ index

虚拟编码后训练数据中的列

categorical_columns_ index

训练数据中的分类列

noncategorical_columns_ index

训练数据中的其余列

categorical_blocks_dict

从列名映射到切片对象。切片表示分类列最终在转换后的数组中的位置

dtypes_dict

字典映射列名到

  • CategoricalDtype 的实例(pandas >= 0.21.0)
  • (类别,有序)的元组

注意

此转换器仅适用于 dask 和 pandas 数据帧。对于 dask DataFrames,您的所有分类都应该是已知的。

逆变换可用于数据帧或数组。

例子

>>> data = pd.DataFrame({"A": [1, 2, 3, 4],
...                      "B": pd.Categorical(['a', 'a', 'a', 'b'])})
>>> de = DummyEncoder()
>>> trn = de.fit_transform(data)
>>> trn
A  B_a  B_b
0  1    1    0
1  2    1    0
2  3    1    0
3  4    0    1
>>> de.columns_
Index(['A', 'B'], dtype='object')
>>> de.non_categorical_columns_
Index(['A'], dtype='object')
>>> de.categorical_columns_
Index(['B'], dtype='object')
>>> de.dtypes_
{'B': CategoricalDtype(categories=['a', 'b'], ordered=False)}
>>> de.categorical_blocks_
{'B': slice(1, 3, None)}
>>> de.fit_transform(dd.from_pandas(data, 2))
Dask DataFrame Structure:
                A    B_a    B_b
npartitions=2
0              int64  uint8  uint8
2                ...    ...    ...
3                ...    ...    ...
Dask Name: get_dummies, 4 tasks

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask_ml.preprocessing.DummyEncoder。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。