Python dask_ml.feature_extraction.text.FeatureHasher用法及代码示例

用法: class dask_ml.feature_extraction.text.FeatureHasher(n_features=1048576, *, input_type='dict', dtype=<class 'numpy.float64'>, alternate_sign=True)

实现特征散列，也就是散列技巧。

此类将符号特征名称(字符串)序列转换为 scipy.sparse 矩阵，使用哈希函数计算与名称对应的矩阵列。使用的散列函数是有符号的 32 位版本的 Murmurhash3。

使用字节串类型的特征名称as-is。 Unicode 字符串首先转换为 UTF-8，但没有进行 Unicode 规范化。特征值必须是(有限的)数字。

此类是 DictVectorizer 和 CountVectorizer 的low-memory 替代品，用于large-scale(在线)学习和内存紧张的情况，例如在嵌入式设备上运行预测代码时。

在用户指南中阅读更多信息。

参数：

n_features：整数，默认=2**20: 输出矩阵中的特征(列)数。少量特征可能会导致哈希冲突，但大量特征会导致线性学习器中的系数维度较大。
input_type：str，默认='dict': 从 {‘dict’, ‘pair’, ‘string’} 中选择一个字符串。或者“dict”(默认)接受字典超过(feature_name，值)； “pair” 接受成对的 (feature_name, value);或 “string” 接受单个字符串。 feature_name 应该是一个字符串，而 value 应该是一个数字。在“string” 的情况下，隐含值为 1。 feature_name 被散列以找到该函数的适当列。该值的符号可能会在输出中翻转(但请参见下面的non_negative)。
dtype：numpy dtype，默认=np.float64: 特征值的类型。作为 dtype 参数传递给 scipy.sparse 矩阵构造函数。不要将其设置为 bool、np.boolean 或任何无符号整数类型。
alternate_sign：布尔，默认=真: 当为 True 时，将交替符号添加到特征中，以近似保存散列空间中的内积，即使对于小的 n_features 也是如此。这种方法类似于稀疏随机投影。

例子：

>>> from sklearn.feature_extraction import FeatureHasher
>>> h = FeatureHasher(n_features=10)
>>> D = [{'dog': 1, 'cat':2, 'elephant':4},{'dog': 2, 'run': 5}]
>>> f = h.transform(D)
>>> f.toarray()
array([[ 0.,  0., -4., -1.,  0.,  0.,  0.,  0.,  0.,  2.],
       [ 0.,  0.,  0., -2., -5.,  0.,  0.,  0.,  0.,  0.]])

相关用法

注：本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask_ml.feature_extraction.text.FeatureHasher。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。