Python pyspark IDF用法及代码示例

本文简要介绍 pyspark.mllib.feature.IDF 的用法。

用法: class pyspark.mllib.feature.IDF(minDocFreq=0)

逆文档频率 (IDF)。

使用标准公式：idf = log((m + 1) / (d(t) + 1))，其中 m 是文档总数，d(t) 是包含术语 t 的文档数。

此实现支持过滤掉未出现在最小数量文档中的术语(由变量 minDocFreq 控制)。对于至少不在 minDocFreq 文档中的术语，IDF 被找到为 0，导致 TF-IDFs of 0。

版本 1.2.0 中的新函数。

参数：

minDocFreq：int: 应该出现一个词以进行过滤的最少文档

例子：

>>> n = 4
>>> freqs = [Vectors.sparse(n, (1, 3), (1.0, 2.0)),
...          Vectors.dense([0.0, 1.0, 2.0, 3.0]),
...          Vectors.sparse(n, [1], [1.0])]
>>> data = sc.parallelize(freqs)
>>> idf = IDF()
>>> model = idf.fit(data)
>>> tfidf = model.transform(data)
>>> for r in tfidf.collect(): r
SparseVector(4, {1: 0.0, 3: 0.5754})
DenseVector([0.0, 0.0, 1.3863, 0.863])
SparseVector(4, {1: 0.0})
>>> model.transform(Vectors.dense([0.0, 1.0, 2.0, 3.0]))
DenseVector([0.0, 0.0, 1.3863, 0.863])
>>> model.transform([0.0, 1.0, 2.0, 3.0])
DenseVector([0.0, 0.0, 1.3863, 0.863])
>>> model.transform(Vectors.sparse(n, (1, 3), (1.0, 2.0)))
SparseVector(4, {1: 0.0, 3: 0.5754})

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.mllib.feature.IDF。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。