当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR spark.powerIterationClustering用法及代码示例


说明:

一种可扩展的图聚类算法。用户可以调用spark.assignClusters 为每个输入顶点返回一个簇分配。运行 PIC 算法并为每个输入顶点返回一个集群分配。

用法:

spark.assignClusters(data, ...)

## S4 method for signature 'SparkDataFrame'
spark.assignClusters(
  data,
  k = 2L,
  initMode = c("random", "degree"),
  maxIter = 20L,
  sourceCol = "src",
  destinationCol = "dst",
  weightCol = NULL
)

参数:

  • data 一个 SparkDataFrame。
  • ... 传递给方法的附加参数。
  • k 要创建的集群数量。
  • initMode 初始化算法; "random" 或 "degree"
  • maxIter 最大迭代次数。
  • sourceCol 源顶点 ID 的输入列的名称。
  • destinationCol 目标顶点 ID 的输入列的名称
  • weightCol 重量列名称。如果未设置或 NULL ,我们将所有实例权重视为 1.0。

返回:

包含顶点 id 列和该 id 的相应集群的数据集。它的架构将是:id: integer , cluster: integer

注意:

spark.assignClusters(SparkDataFrame) 自 3.0.0 起

例子:

df <- createDataFrame(list(list(0L, 1L, 1.0), list(0L, 2L, 1.0),
                           list(1L, 2L, 1.0), list(3L, 4L, 1.0),
                           list(4L, 0L, 0.1)),
                      schema = c("src", "dst", "weight"))
clusters <- spark.assignClusters(df, initMode = "degree", weightCol = "weight")
showDF(clusters)

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 PowerIterationClustering。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。