当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python sklearn Binarizer用法及代码示例


本文简要介绍python语言中 sklearn.preprocessing.Binarizer 的用法。

用法:

class sklearn.preprocessing.Binarizer(*, threshold=0.0, copy=True)

根据阈值对数据进行二值化(将特征值设置为 0 或 1)。

大于阈值的值映射到 1,而小于或等于阈值的值映射到 0。默认阈值为 0,只有正值映射到 1。

二值化是对文本计数数据的一种常见操作,分析师可以决定只考虑特征的存在或不存在,而不是例如量化的出现次数。

它也可以用作考虑布尔随机变量的估计器的预处理步骤(例如,在贝叶斯设置中使用伯努利分布建模)。

在用户指南中阅读更多信息。

参数

threshold浮点数,默认=0.0

低于或等于此的特征值被 0 替换,高于它的 1 替换。对于稀疏矩阵的操作,阈值可能不小于 0。

copy布尔,默认=真

设置为 False 以执行就地二值化并避免复制(如果输入已经是 numpy 数组或 scipy.sparse CSR 矩阵)。

属性

n_features_in_int

拟合期间看到的特征数。

feature_names_in_ndarray 形状(n_features_in_,)

拟合期间看到的特征名称。仅当 X 具有全为字符串的函数名称时才定义。

注意

如果输入是稀疏矩阵,则 Binarizer 类只更新非零值。

这个估计器是无状态的(除了构造函数参数), fit 方法什么都不做,但在管道中使用时很有用。

例子

>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> transformer = Binarizer().fit(X)  # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

相关用法


注:本文由纯净天空筛选整理自scikit-learn.org大神的英文原创作品 sklearn.preprocessing.Binarizer。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。