用法:
class dask_ml.feature_extraction.text.FeatureHasher(n_features=1048576, *, input_type='dict', dtype=<class 'numpy.float64'>, alternate_sign=True)
实现特征散列,也就是散列技巧。
此类将符号特征名称(字符串)序列转换为 scipy.sparse 矩阵,使用哈希函数计算与名称对应的矩阵列。使用的散列函数是有符号的 32 位版本的 Murmurhash3。
使用字节串类型的特征名称as-is。 Unicode 字符串首先转换为 UTF-8,但没有进行 Unicode 规范化。特征值必须是(有限的)数字。
此类是 DictVectorizer 和 CountVectorizer 的low-memory 替代品,用于large-scale(在线)学习和内存紧张的情况,例如在嵌入式设备上运行预测代码时。
在用户指南中阅读更多信息。
- n_features:整数,默认=2**20
输出矩阵中的特征(列)数。少量特征可能会导致哈希冲突,但大量特征会导致线性学习器中的系数维度较大。
- input_type:str,默认='dict'
从 {‘dict’, ‘pair’, ‘string’} 中选择一个字符串。或者“dict”(默认)接受字典超过(feature_name,值); “pair” 接受成对的 (feature_name, value);或 “string” 接受单个字符串。 feature_name 应该是一个字符串,而 value 应该是一个数字。在“string” 的情况下,隐含值为 1。 feature_name 被散列以找到该函数的适当列。该值的符号可能会在输出中翻转(但请参见下面的non_negative)。
- dtype:numpy dtype,默认=np.float64
特征值的类型。作为 dtype 参数传递给 scipy.sparse 矩阵构造函数。不要将其设置为 bool、np.boolean 或任何无符号整数类型。
- alternate_sign:布尔,默认=真
当为 True 时,将交替符号添加到特征中,以近似保存散列空间中的内积,即使对于小的 n_features 也是如此。这种方法类似于稀疏随机投影。
参数:
例子:
>>> from sklearn.feature_extraction import FeatureHasher >>> h = FeatureHasher(n_features=10) >>> D = [{'dog': 1, 'cat':2, 'elephant':4},{'dog': 2, 'run': 5}] >>> f = h.transform(D) >>> f.toarray() array([[ 0., 0., -4., -1., 0., 0., 0., 0., 0., 2.], [ 0., 0., 0., -2., -5., 0., 0., 0., 0., 0.]])
相关用法
- Python dask_ml.feature_extraction.text.CountVectorizer用法及代码示例
- Python dask_ml.feature_extraction.text.HashingVectorizer用法及代码示例
- Python dask_ml.wrappers.ParallelPostFit用法及代码示例
- Python dask_ml.preprocessing.MinMaxScaler用法及代码示例
- Python dask_ml.preprocessing.Categorizer用法及代码示例
- Python dask_ml.linear_model.LinearRegression用法及代码示例
- Python dask_ml.wrappers.Incremental用法及代码示例
- Python dask_ml.metrics.mean_squared_log_error用法及代码示例
- Python dask_ml.model_selection.GridSearchCV用法及代码示例
- Python dask_ml.preprocessing.OrdinalEncoder用法及代码示例
- Python dask_ml.preprocessing.LabelEncoder用法及代码示例
- Python dask_ml.ensemble.BlockwiseVotingClassifier用法及代码示例
- Python dask_ml.model_selection.train_test_split用法及代码示例
- Python dask_ml.decomposition.PCA用法及代码示例
- Python dask_ml.preprocessing.PolynomialFeatures用法及代码示例
- Python dask_ml.linear_model.LogisticRegression用法及代码示例
- Python dask_ml.xgboost.train用法及代码示例
- Python dask_ml.linear_model.PoissonRegression用法及代码示例
- Python dask_ml.preprocessing.StandardScaler用法及代码示例
- Python dask_ml.preprocessing.QuantileTransformer用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask_ml.feature_extraction.text.FeatureHasher。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。