Python sklearn MissingIndicator用法及代码示例

本文简要介绍python语言中 sklearn.impute.MissingIndicator 的用法。

用法: class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)

缺失值的二元指标。

请注意，此组件通常不应在由转换器和分类器组成的 vanilla Pipeline 中使用，而是可以使用 FeatureUnion 或 ColumnTransformer 添加。

在用户指南中阅读更多信息。

参数：

missing_values：int、float、str、np.nan 或 None，默认=np.nan

缺失值的占位符。所有出现的missing_values 都将被估算。对于带有缺失值的可空整数 dtype 的 pandas 数据帧，应将 missing_values 设置为 np.nan ，因为 pd.NA 将转换为 np.nan 。

features：{'missing-only'，‘all’}，默认='missing-only'

imputer 掩码应该代表所有特征还是部分特征。

如果'missing-only'(默认)，imputer mask 将仅表示在拟合期间包含缺失值的特征。
如果 'all' ，则 imputer 掩码将代表所有特征。

sparse：bool 或‘auto’，默认='auto'

imputer 掩码格式应该是稀疏的还是密集的。

如果'auto'(默认)，输入掩码将与输入的类型相同。
如果 True ，输入掩码将是一个稀疏矩阵。
如果 False ，输入掩码将是一个 numpy 数组。

error_on_new：布尔，默认=真

如果 True 、 transform 会在 fit 中存在缺失值的特征时引发错误。这仅适用于 features='missing-only' 。

属性：

features_：ndarray 形状 (n_missing_features,) 或 (n_features,): 调用 transform 时将返回的特征索引。它们是在 fit 期间计算的。如果features='all' ，features_ 等于range(n_features) 。
n_features_in_：int: 拟合期间看到的特征数。
feature_names_in_：ndarray 形状(n_features_in_，): 拟合期间看到的特征名称。仅当 X 具有全为字符串的函数名称时才定义。

例子：

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])

相关用法

注：本文由纯净天空筛选整理自scikit-learn.org大神的英文原创作品 sklearn.impute.MissingIndicator。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。