当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR glm用法及代码示例


说明:

拟合广义线性模型,类似于 R 的glm()。

用法:

## S4 method for signature 'formula,ANY,SparkDataFrame'
glm(
  formula,
  family = gaussian,
  data,
  epsilon = 1e-06,
  maxit = 25,
  weightCol = NULL,
  var.power = 0,
  link.power = 1 - var.power,
  stringIndexerOrderType = c("frequencyDesc", "frequencyAsc", "alphabetDesc",
    "alphabetAsc"),
  offsetCol = NULL
)

参数:

  • formula 要拟合的模型的符号说明。目前仅支持少数公式运算符,包括'~'、'.'、':'、'+'和'-'。
  • family 模型中要使用的误差分布和链接函数的说明。这可以是命名族函数、族函数或调用族函数的结果的字符串。在 https://stat.ethz.ch/R-manual/R-devel/library/stats/html/family.html 参考 R 系列。目前支持以下系列:binomial , gaussian , poisson , Gammatweedie
  • data 用于训练的 SparkDataFrame 或 R 的 glm 数据。
  • epsilon 迭代的正收敛容差。
  • maxit 给出最大 IRLS 迭代次数的整数。
  • weightCol 权重列名称。如果未设置或 NULL ,我们将所有实例权重视为 1.0。
  • var.power Tweedie 族中幂方差函数的索引。
  • link.power Tweedie 系列中电源链接函数的索引。
  • stringIndexerOrderType 如何对字符串特征列的类别进行排序。这用于确定字符串特征的基本级别,作为编码字符串时删除排序后的最后一个类别。支持的选项有 "frequencyDesc"、"frequencyAsc"、"alphabetDesc" 和 "alphabetAsc"。默认值为"frequencyDesc"。当 ordering 设置为 "alphabetDesc" 时,这会在编码字符串时丢弃与 R 相同的类别。
  • offsetCol 偏移列名称。如果未设置或为空,我们将所有实例偏移量视为 0.0。指定为偏移量的特征具有 1.0 的常数系数。

返回:

glm 返回拟合的广义线性模型。

注意:

从 1.5.0 开始的 glm

例子:

sparkR.session()
t <- as.data.frame(Titanic)
df <- createDataFrame(t)
model <- glm(Freq ~ Sex + Age, df, family = "gaussian")
summary(model)

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Generalized Linear Models (R-compliant)。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。