Python cuml.experimental.preprocessing.SimpleImputer用法及代码示例

用法:
class cuml.experimental.preprocessing.SimpleImputer(*args, **kwargs)

用于完成缺失值的插补转换器。

参数：

missing_values：数字、字符串、np.nan(默认)或无

缺失值的占位符。所有出现的missing_values 都将被估算。对于带有缺失值的可空整数 dtype 的 pandas 数据帧，应将 missing_values 设置为 np.nan ，因为 pd.NA 将转换为 np.nan 。

strategy：字符串，默认='意思'

插补策略。

如果“mean”，则使用每列的平均值替换缺失值。只能用于数值数据。
如果“median”，则使用沿每列的中值替换缺失值。只能用于数值数据。
如果“most_frequent”，则使用每列中出现频率最高的值替换缺失值。可用于字符串或数字数据。
如果“constant”，则用fill_value 替换缺失值。可用于字符串或数字数据。

strategy=”constant” 用于固定值插补。

fill_value：字符串或数值，默认=无

当 strategy == “constant” 时，fill_value 用于替换所有出现的 missing_values。如果保留默认值，则在输入数值数据时fill_value 将为 0，而对于字符串或对象数据类型，“missing_value” 将为。

verbose：整数，默认=0

控制 imputer 的详细程度。

copy：布尔值，默认 = True

如果为 True，将创建 X 的副本。如果为 False，则将尽可能就地进行插补。请注意，在以下情况下，将始终制作新副本，即使 copy=False ：

如果 X 不是浮点值数组；
如果 X 被编码为 CSR 矩阵；
如果add_indicator=真。

add_indicator：布尔值，默认=假

如果为真，MissingIndicator 变换将叠加到 imputer 变换的输出上。这允许预测估计器解释缺失，尽管有插补。如果某个特征在拟合/训练时没有缺失值，则即使在变换/测试时存在缺失值，该特征也不会出现在缺失指示器上。

注意：

如果策略不是“constant”，则在transform() 时丢弃仅在fit() 处包含缺失值的列。

例子：

>>> import cupy as cp
>>> from cuml.preprocessing import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=cp.nan, strategy='mean')
>>> imp_mean.fit(cp.asarray([[7, 2, 3], [4, cp.nan, 6], [10, 5, 9]]))
SimpleImputer()
>>> X = [[cp.nan, 2, 3], [4, cp.nan, 6], [10, cp.nan, 9]]
>>> print(imp_mean.transform(cp.asarray(X)))
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]

属性：

statistics_：形状数组(n_features，): 每个特征的插补填充值。计算统计信息会产生 np.nan 值。在 transform() 期间，与 np.nan 统计信息对应的特征将被丢弃。

相关用法

注：本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cuml.experimental.preprocessing.SimpleImputer。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。