Python pyspark StopWordsRemover用法及代码示例

本文简要介绍 pyspark.ml.feature.StopWordsRemover 的用法。

用法: class pyspark.ml.feature.StopWordsRemover(*, inputCol=None, outputCol=None, stopWords=None, caseSensitive=False, locale=None, inputCols=None, outputCols=None)

从输入中过滤掉停用词的特征转换器。从3.0.0开始，StopWordsRemover可以通过设置inputCols参数一次性过滤掉多列。请注意，当同时设置inputCol和inputCols参数时，将抛出异常。

版本 1.6.0 中的新函数。

注意：

除非显式将 null 添加到 stopWords，否则输入数组中的 null 值将被保留。

例子：

>>> df = spark.createDataFrame([(["a", "b", "c"],)], ["text"])
>>> remover = StopWordsRemover(stopWords=["b"])
>>> remover.setInputCol("text")
StopWordsRemover...
>>> remover.setOutputCol("words")
StopWordsRemover...
>>> remover.transform(df).head().words == ['a', 'c']
True
>>> stopWordsRemoverPath = temp_path + "/stopwords-remover"
>>> remover.save(stopWordsRemoverPath)
>>> loadedRemover = StopWordsRemover.load(stopWordsRemoverPath)
>>> loadedRemover.getStopWords() == remover.getStopWords()
True
>>> loadedRemover.getCaseSensitive() == remover.getCaseSensitive()
True
>>> loadedRemover.transform(df).take(1) == remover.transform(df).take(1)
True
>>> df2 = spark.createDataFrame([(["a", "b", "c"], ["a", "b"])], ["text1", "text2"])
>>> remover2 = StopWordsRemover(stopWords=["b"])
>>> remover2.setInputCols(["text1", "text2"]).setOutputCols(["words1", "words2"])
StopWordsRemover...
>>> remover2.transform(df2).show()
+---------+------+------+------+
|    text1| text2|words1|words2|
+---------+------+------+------+
|[a, b, c]|[a, b]|[a, c]|   [a]|
+---------+------+------+------+
...

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.ml.feature.StopWordsRemover。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。