當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


R SparkR spark.powerIterationClustering用法及代碼示例

說明:

一種可擴展的圖聚類算法。用戶可以調用spark.assignClusters 為每個輸入頂點返回一個簇分配。運行 PIC 算法並為每個輸入頂點返回一個集群分配。

用法:

spark.assignClusters(data, ...)

## S4 method for signature 'SparkDataFrame'
spark.assignClusters(
  data,
  k = 2L,
  initMode = c("random", "degree"),
  maxIter = 20L,
  sourceCol = "src",
  destinationCol = "dst",
  weightCol = NULL
)

參數:

  • data 一個 SparkDataFrame。
  • ... 傳遞給方法的附加參數。
  • k 要創建的集群數量。
  • initMode 初始化算法; "random" 或 "degree"
  • maxIter 最大迭代次數。
  • sourceCol 源頂點 ID 的輸入列的名稱。
  • destinationCol 目標頂點 ID 的輸入列的名稱
  • weightCol 重量列名稱。如果未設置或 NULL ,我們將所有實例權重視為 1.0。

返回:

包含頂點 id 列和該 id 的相應集群的數據集。它的架構將是:id: integer , cluster: integer

注意:

spark.assignClusters(SparkDataFrame) 自 3.0.0 起

例子:

df <- createDataFrame(list(list(0L, 1L, 1.0), list(0L, 2L, 1.0),
                           list(1L, 2L, 1.0), list(3L, 4L, 1.0),
                           list(4L, 0L, 0.1)),
                      schema = c("src", "dst", "weight"))
clusters <- spark.assignClusters(df, initMode = "degree", weightCol = "weight")
showDF(clusters)

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 PowerIterationClustering。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。