当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python sklearn MissingIndicator用法及代码示例


本文简要介绍python语言中 sklearn.impute.MissingIndicator 的用法。

用法:

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)

缺失值的二元指标。

请注意,此组件通常不应在由转换器和分类器组成的 vanilla Pipeline 中使用,而是可以使用 FeatureUnionColumnTransformer 添加。

在用户指南中阅读更多信息。

参数

missing_valuesint、float、str、np.nan 或 None,默认=np.nan

缺失值的占位符。所有出现的missing_values 都将被估算。对于带有缺失值的可空整数 dtype 的 pandas 数据帧,应将 missing_values 设置为 np.nan ,因为 pd.NA 将转换为 np.nan

features{'missing-only',‘all’},默认='missing-only'

imputer 掩码应该代表所有特征还是部分特征。

  • 如果'missing-only'(默认),imputer mask 将仅表示在拟合期间包含缺失值的特征。
  • 如果 'all' ,则 imputer 掩码将代表所有特征。
sparsebool 或‘auto’,默认='auto'

imputer 掩码格式应该是稀疏的还是密集的。

  • 如果'auto'(默认),输入掩码将与输入的类型相同。
  • 如果 True ,输入掩码将是一个稀疏矩阵。
  • 如果 False ,输入掩码将是一个 numpy 数组。
error_on_new布尔,默认=真

如果 Truetransform 会在 fit 中存在缺失值的特征时引发错误。这仅适用于 features='missing-only'

属性

features_ndarray 形状 (n_missing_features,) 或 (n_features,)

调用 transform 时将返回的特征索引。它们是在 fit 期间计算的。如果features='all'features_ 等于range(n_features)

n_features_in_int

拟合期间看到的特征数。

feature_names_in_ndarray 形状(n_features_in_,)

拟合期间看到的特征名称。仅当 X 具有全为字符串的函数名称时才定义。

例子

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])

相关用法


注:本文由纯净天空筛选整理自scikit-learn.org大神的英文原创作品 sklearn.impute.MissingIndicator。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。