当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR freqItems用法及代码示例


说明:

查找列的频繁项,可能有误报。使用由 Karp、Schenker 和 Papadimitriou 提出的 https://dl.acm.org/doi/10.1145/762471.762473 中说明的频繁元素计数算法。

用法:

## S4 method for signature 'SparkDataFrame,character'
freqItems(x, cols, support = 0.01)

参数:

  • x 一个 SparkDataFrame。
  • cols 用于搜索频繁项的向量列名称。
  • support (可选)要考虑的项目的最小频率 frequent 。应大于 1e-4。默认支持 = 0.01。

返回:

本地 R DataFrame ,每列中包含频繁项

注意:

freqItems 自 1.6.0 起

例子:

df <- read.json("/path/to/file.json")
fi = freqItems(df, c("title", "gender"))

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Finding frequent items for columns, possibly with false positives。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。