當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python sklearn SimpleImputer用法及代碼示例


本文簡要介紹python語言中 sklearn.impute.SimpleImputer 的用法。

用法:

class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy='mean', fill_value=None, verbose=0, copy=True, add_indicator=False)

用於完成缺失值的插補轉換器。

在用戶指南中閱讀更多信息。

參數

missing_valuesint、float、str、np.nan 或 None,默認=np.nan

缺失值的占位符。所有出現的missing_values 都將被估算。對於帶有缺失值的可空整數 dtype 的 pandas 數據幀,應將 missing_values 設置為 np.nan ,因為 pd.NA 將轉換為 np.nan

strategystr,默認='平均值'

插補策略。

  • 如果“mean”,則使用每列的平均值替換缺失值。隻能用於數值數據。
  • 如果“median”,則使用沿每列的中值替換缺失值。隻能用於數值數據。
  • 如果“most_frequent”,則使用每列中出現頻率最高的值替換缺失值。可用於字符串或數字數據。如果有多個這樣的值,則隻返回最小值。
  • 如果“constant”,則用fill_value 替換缺失值。可用於字符串或數字數據。
fill_valuestr 或數值,默認=None

當 strategy == “constant” 時,fill_value 用於替換所有出現的 missing_values。如果保留默認值,則在輸入數值數據時fill_value 將為 0,而對於字符串或對象數據類型,“missing_value” 將為。

verbose整數,默認=0

控製 imputer 的詳細程度。

copy布爾,默認=真

如果為 True,將創建 X 的副本。如果為 False,則將盡可能就地進行插補。請注意,在以下情況下,將始終製作新副本,即使 copy=False

  • 如果X 不是浮點值數組;
  • 如果X被編碼為CSR矩陣;
  • 如果 add_indicator=True
add_indicator布爾,默認=假

如果為真, MissingIndicator 變換將疊加到 imputer 變換的輸出上。這允許預測估計器解釋缺失,盡管有插補。如果某個特征在擬合/訓練時沒有缺失值,則即使在變換/測試時存在缺失值,該特征也不會出現在缺失指示器上。

屬性

statistics_形狀數組(n_features,)

每個特征的插補填充值。計算統計數據可能會產生np.nan 值。在transform期間,與np.nan統計對應的特征將被丟棄。

indicator_sklearn.impute.MissingIndicator

用於為缺失值添加二元指標的指標。 None 如果 add_indicator=False

n_features_in_int

擬合期間看到的特征數。

feature_names_in_ndarray 形狀(n_features_in_,)

擬合期間看到的特征名稱。僅當 X 具有全為字符串的函數名稱時才定義。

注意

如果策略不是 "constant" ,則僅在 fit 處包含缺失值的列將在 transform 上被丟棄。

例子

>>> import numpy as np
>>> from sklearn.impute import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
>>> imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])
SimpleImputer()
>>> X = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]
>>> print(imp_mean.transform(X))
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]

相關用法


注:本文由純淨天空篩選整理自scikit-learn.org大神的英文原創作品 sklearn.impute.SimpleImputer。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。