當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python sklearn MissingIndicator用法及代碼示例


本文簡要介紹python語言中 sklearn.impute.MissingIndicator 的用法。

用法:

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)

缺失值的二元指標。

請注意,此組件通常不應在由轉換器和分類器組成的 vanilla Pipeline 中使用,而是可以使用 FeatureUnionColumnTransformer 添加。

在用戶指南中閱讀更多信息。

參數

missing_valuesint、float、str、np.nan 或 None,默認=np.nan

缺失值的占位符。所有出現的missing_values 都將被估算。對於帶有缺失值的可空整數 dtype 的 pandas 數據幀,應將 missing_values 設置為 np.nan ,因為 pd.NA 將轉換為 np.nan

features{'missing-only',‘all’},默認='missing-only'

imputer 掩碼應該代表所有特征還是部分特征。

  • 如果'missing-only'(默認),imputer mask 將僅表示在擬合期間包含缺失值的特征。
  • 如果 'all' ,則 imputer 掩碼將代表所有特征。
sparsebool 或‘auto’,默認='auto'

imputer 掩碼格式應該是稀疏的還是密集的。

  • 如果'auto'(默認),輸入掩碼將與輸入的類型相同。
  • 如果 True ,輸入掩碼將是一個稀疏矩陣。
  • 如果 False ,輸入掩碼將是一個 numpy 數組。
error_on_new布爾,默認=真

如果 Truetransform 會在 fit 中存在缺失值的特征時引發錯誤。這僅適用於 features='missing-only'

屬性

features_ndarray 形狀 (n_missing_features,) 或 (n_features,)

調用 transform 時將返回的特征索引。它們是在 fit 期間計算的。如果features='all'features_ 等於range(n_features)

n_features_in_int

擬合期間看到的特征數。

feature_names_in_ndarray 形狀(n_features_in_,)

擬合期間看到的特征名稱。僅當 X 具有全為字符串的函數名稱時才定義。

例子

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])

相關用法


注:本文由純淨天空篩選整理自scikit-learn.org大神的英文原創作品 sklearn.impute.MissingIndicator。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。