R SparkR spark.prefixSpan用法及代碼示例

說明：

一種用於挖掘頻繁順序模式的並行 PrefixSpan 算法。 spark.findFrequentSequentialPatterns 返回一組完整的頻繁序列模式。有關詳細信息，請參閱 PrefixSpan 。

用法：

spark.findFrequentSequentialPatterns(data, ...)

## S4 method for signature 'SparkDataFrame'
spark.findFrequentSequentialPatterns(
  data,
  minSupport = 0.1,
  maxPatternLength = 10L,
  maxLocalProjDBSize = 32000000L,
  sequenceCol = "sequence"
)

參數：

data 一個 SparkDataFrame。
... 傳遞給方法的附加參數。
minSupport 最低支持水平。
maxPatternLength 最大圖案長度。
maxLocalProjDBSize 在本地處理之前，投影數據庫中允許的最大項目數(包括用於內部存儲格式的分隔符)。
sequenceCol 數據集中序列列的名稱。

項集輸入序列中的一組完整的頻繁序列模式。返回的SparkDataFrame 包含序列列和相應的頻率。它的架構將是：sequence: ArrayType(ArrayType(T)) , freq: integer 其中 T 是項目類型

注意：

spark.findFrequentSequentialPatterns(SparkDataFrame) 自 3.0.0

例子：

df <- createDataFrame(list(list(list(list(1L, 2L), list(3L))),
                           list(list(list(1L), list(3L, 2L), list(1L, 2L))),
                           list(list(list(1L, 2L), list(5L))),
                           list(list(list(6L)))),
                      schema = c("sequence"))
frequency <- spark.findFrequentSequentialPatterns(df, minSupport = 0.5, maxPatternLength = 5L,
                                                  maxLocalProjDBSize = 32000000L)
showDF(frequency)

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 PrefixSpan。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

說明：

用法：

參數：

返回：

注意：

例子：