當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python cuml.experimental.preprocessing.SimpleImputer用法及代碼示例


用法:

class cuml.experimental.preprocessing.SimpleImputer(*args, **kwargs)

用於完成缺失值的插補轉換器。

參數

missing_values數字、字符串、np.nan(默認)或無

缺失值的占位符。所有出現的missing_values 都將被估算。對於帶有缺失值的可空整數 dtype 的 pandas 數據幀,應將 missing_values 設置為 np.nan ,因為 pd.NA 將轉換為 np.nan

strategy字符串,默認='意思'

插補策略。

  • 如果“mean”,則使用每列的平均值替換缺失值。隻能用於數值數據。
  • 如果“median”,則使用沿每列的中值替換缺失值。隻能用於數值數據。
  • 如果“most_frequent”,則使用每列中出現頻率最高的值替換缺失值。可用於字符串或數字數據。
  • 如果“constant”,則用fill_value 替換缺失值。可用於字符串或數字數據。

strategy=”constant” 用於固定值插補。

fill_value字符串或數值,默認=無

當 strategy == “constant” 時,fill_value 用於替換所有出現的 missing_values。如果保留默認值,則在輸入數值數據時fill_value 將為 0,而對於字符串或對象數據類型,“missing_value” 將為。

verbose整數,默認=0

控製 imputer 的詳細程度。

copy布爾值,默認 = True

如果為 True,將創建 X 的副本。如果為 False,則將盡可能就地進行插補。請注意,在以下情況下,將始終製作新副本,即使 copy=False

  • 如果 X 不是浮點值數組;
  • 如果 X 被編碼為 CSR 矩陣;
  • 如果add_indicator=真。
add_indicator布爾值,默認=假

如果為真,MissingIndicator 變換將疊加到 imputer 變換的輸出上。這允許預測估計器解釋缺失,盡管有插補。如果某個特征在擬合/訓練時沒有缺失值,則即使在變換/測試時存在缺失值,該特征也不會出現在缺失指示器上。

注意

如果策略不是“constant”,則在transform() 時丟棄僅在fit() 處包含缺失值的列。

例子

>>> import cupy as cp
>>> from cuml.preprocessing import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=cp.nan, strategy='mean')
>>> imp_mean.fit(cp.asarray([[7, 2, 3], [4, cp.nan, 6], [10, 5, 9]]))
SimpleImputer()
>>> X = [[cp.nan, 2, 3], [4, cp.nan, 6], [10, cp.nan, 9]]
>>> print(imp_mean.transform(cp.asarray(X)))
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]

屬性

statistics_形狀數組(n_features,)

每個特征的插補填充值。計算統計信息會產生 np.nan 值。在 transform() 期間,與 np.nan 統計信息對應的特征將被丟棄。

相關用法


注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cuml.experimental.preprocessing.SimpleImputer。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。