Python cuml.experimental.preprocessing.Binarizer用法及代碼示例

用法:
class cuml.experimental.preprocessing.Binarizer(*args, **kwargs)

根據閾值對數據進行二值化(將特征值設置為 0 或 1)

大於閾值的值映射到 1，而小於或等於閾值的值映射到 0。默認閾值為 0，隻有正值映射到 1。

二值化是對文本計數數據的一種常見操作，分析師可以決定隻考慮特征的存在或不存在，而不是例如量化的出現次數。

它也可以用作考慮布爾隨機變量的估計器的預處理步驟(例如，在貝葉斯設置中使用伯努利分布建模)。

參數：

threshold：浮點數，可選(默認為 0.0): 低於或等於此的特征值被 0 替換，高於它的 1 替換。對於稀疏矩陣的操作，閾值可能不小於 0。
copy：布爾值，可選，默認 True: 是否會觸發強製複製。如果 copy=False，則可能會通過轉換觸發複製。

注意：

如果輸入是稀疏矩陣，則 Binarizer 類隻更新非零值。

這個估計器是無狀態的(除了構造函數參數)， fit 方法什麽都不做，但在管道中使用時很有用。

例子：

>>> from cuml.preprocessing import Binarizer
>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> transformer = Binarizer().fit(X)  # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

相關用法

注：本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cuml.experimental.preprocessing.Binarizer。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。