当前位置: 首页>>编程示例 >>用法及示例精选 >>正文


R SparkR spark.prefixSpan用法及代码示例

说明:

一种用于挖掘频繁顺序模式的并行 PrefixSpan 算法。 spark.findFrequentSequentialPatterns 返回一组完整的频繁序列模式。有关详细信息,请参阅 PrefixSpan

用法:

spark.findFrequentSequentialPatterns(data, ...)

## S4 method for signature 'SparkDataFrame'
spark.findFrequentSequentialPatterns(
  data,
  minSupport = 0.1,
  maxPatternLength = 10L,
  maxLocalProjDBSize = 32000000L,
  sequenceCol = "sequence"
)

参数:

  • data 一个 SparkDataFrame。
  • ... 传递给方法的附加参数。
  • minSupport 最低支持水平。
  • maxPatternLength 最大图案长度。
  • maxLocalProjDBSize 在本地处理之前,投影数据库中允许的最大项目数(包括用于内部存储格式的分隔符)。
  • sequenceCol 数据集中序列列的名称。

返回:

项集输入序列中的一组完整的频繁序列模式。返回的SparkDataFrame 包含序列列和相应的频率。它的架构将是:sequence: ArrayType(ArrayType(T)) , freq: integer 其中 T 是项目类型

注意:

spark.findFrequentSequentialPatterns(SparkDataFrame) 自 3.0.0

例子:

df <- createDataFrame(list(list(list(list(1L, 2L), list(3L))),
                           list(list(list(1L), list(3L, 2L), list(1L, 2L))),
                           list(list(list(1L, 2L), list(5L))),
                           list(list(list(6L)))),
                      schema = c("sequence"))
frequency <- spark.findFrequentSequentialPatterns(df, minSupport = 0.5, maxPatternLength = 5L,
                                                  maxLocalProjDBSize = 32000000L)
showDF(frequency)

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 PrefixSpan。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。