当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python cuml.experimental.preprocessing.SimpleImputer用法及代码示例


用法:

class cuml.experimental.preprocessing.SimpleImputer(*args, **kwargs)

用于完成缺失值的插补转换器。

参数

missing_values数字、字符串、np.nan(默认)或无

缺失值的占位符。所有出现的missing_values 都将被估算。对于带有缺失值的可空整数 dtype 的 pandas 数据帧,应将 missing_values 设置为 np.nan ,因为 pd.NA 将转换为 np.nan

strategy字符串,默认='意思'

插补策略。

  • 如果“mean”,则使用每列的平均值替换缺失值。只能用于数值数据。
  • 如果“median”,则使用沿每列的中值替换缺失值。只能用于数值数据。
  • 如果“most_frequent”,则使用每列中出现频率最高的值替换缺失值。可用于字符串或数字数据。
  • 如果“constant”,则用fill_value 替换缺失值。可用于字符串或数字数据。

strategy=”constant” 用于固定值插补。

fill_value字符串或数值,默认=无

当 strategy == “constant” 时,fill_value 用于替换所有出现的 missing_values。如果保留默认值,则在输入数值数据时fill_value 将为 0,而对于字符串或对象数据类型,“missing_value” 将为。

verbose整数,默认=0

控制 imputer 的详细程度。

copy布尔值,默认 = True

如果为 True,将创建 X 的副本。如果为 False,则将尽可能就地进行插补。请注意,在以下情况下,将始终制作新副本,即使 copy=False

  • 如果 X 不是浮点值数组;
  • 如果 X 被编码为 CSR 矩阵;
  • 如果add_indicator=真。
add_indicator布尔值,默认=假

如果为真,MissingIndicator 变换将叠加到 imputer 变换的输出上。这允许预测估计器解释缺失,尽管有插补。如果某个特征在拟合/训练时没有缺失值,则即使在变换/测试时存在缺失值,该特征也不会出现在缺失指示器上。

注意

如果策略不是“constant”,则在transform() 时丢弃仅在fit() 处包含缺失值的列。

例子

>>> import cupy as cp
>>> from cuml.preprocessing import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=cp.nan, strategy='mean')
>>> imp_mean.fit(cp.asarray([[7, 2, 3], [4, cp.nan, 6], [10, 5, 9]]))
SimpleImputer()
>>> X = [[cp.nan, 2, 3], [4, cp.nan, 6], [10, cp.nan, 9]]
>>> print(imp_mean.transform(cp.asarray(X)))
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]

属性

statistics_形状数组(n_features,)

每个特征的插补填充值。计算统计信息会产生 np.nan 值。在 transform() 期间,与 np.nan 统计信息对应的特征将被丢弃。

相关用法


注:本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cuml.experimental.preprocessing.SimpleImputer。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。