本文简要介绍
pyspark.ml.feature.StopWordsRemover
的用法。用法:
class pyspark.ml.feature.StopWordsRemover(*, inputCol=None, outputCol=None, stopWords=None, caseSensitive=False, locale=None, inputCols=None, outputCols=None)
从输入中过滤掉停用词的特征转换器。从3.0.0开始,
StopWordsRemover
可以通过设置inputCols
参数一次性过滤掉多列。请注意,当同时设置inputCol
和inputCols
参数时,将抛出异常。版本 1.6.0 中的新函数。
注意:
除非显式将 null 添加到 stopWords,否则输入数组中的 null 值将被保留。
例子:
>>> df = spark.createDataFrame([(["a", "b", "c"],)], ["text"]) >>> remover = StopWordsRemover(stopWords=["b"]) >>> remover.setInputCol("text") StopWordsRemover... >>> remover.setOutputCol("words") StopWordsRemover... >>> remover.transform(df).head().words == ['a', 'c'] True >>> stopWordsRemoverPath = temp_path + "/stopwords-remover" >>> remover.save(stopWordsRemoverPath) >>> loadedRemover = StopWordsRemover.load(stopWordsRemoverPath) >>> loadedRemover.getStopWords() == remover.getStopWords() True >>> loadedRemover.getCaseSensitive() == remover.getCaseSensitive() True >>> loadedRemover.transform(df).take(1) == remover.transform(df).take(1) True >>> df2 = spark.createDataFrame([(["a", "b", "c"], ["a", "b"])], ["text1", "text2"]) >>> remover2 = StopWordsRemover(stopWords=["b"]) >>> remover2.setInputCols(["text1", "text2"]).setOutputCols(["words1", "words2"]) StopWordsRemover... >>> remover2.transform(df2).show() +---------+------+------+------+ | text1| text2|words1|words2| +---------+------+------+------+ |[a, b, c]|[a, b]|[a, c]| [a]| +---------+------+------+------+ ...
相关用法
- Python pyspark StructType用法及代码示例
- Python pyspark Statistics.corr用法及代码示例
- Python pyspark StreamingQueryManager.get用法及代码示例
- Python pyspark StandardScaler用法及代码示例
- Python pyspark StructField用法及代码示例
- Python pyspark StringIndexer用法及代码示例
- Python pyspark StreamingQueryManager.resetTerminated用法及代码示例
- Python pyspark Statistics.kolmogorovSmirnovTest用法及代码示例
- Python pyspark StreamingKMeansModel用法及代码示例
- Python pyspark Statistics.colStats用法及代码示例
- Python pyspark StructType.fieldNames用法及代码示例
- Python pyspark StreamingQueryManager.active用法及代码示例
- Python pyspark StructType.add用法及代码示例
- Python pyspark Statistics.chiSqTest用法及代码示例
- Python pyspark StreamingQuery.explain用法及代码示例
- Python pyspark Series.asof用法及代码示例
- Python pyspark Series.to_frame用法及代码示例
- Python pyspark Series.rsub用法及代码示例
- Python pyspark Series.mod用法及代码示例
- Python pyspark Series.str.join用法及代码示例
- Python pyspark Series.str.startswith用法及代码示例
- Python pyspark Series.dt.is_quarter_end用法及代码示例
- Python pyspark Series.dropna用法及代码示例
- Python pyspark Series.sub用法及代码示例
- Python pyspark Series.sum用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.ml.feature.StopWordsRemover。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。