说明:
拟合广义线性模型,类似于 R 的glm()。
用法:
## S4 method for signature 'formula,ANY,SparkDataFrame'
glm(
formula,
family = gaussian,
data,
epsilon = 1e-06,
maxit = 25,
weightCol = NULL,
var.power = 0,
link.power = 1 - var.power,
stringIndexerOrderType = c("frequencyDesc", "frequencyAsc", "alphabetDesc",
"alphabetAsc"),
offsetCol = NULL
)
参数:
formula
要拟合的模型的符号说明。目前仅支持少数公式运算符,包括'~'、'.'、':'、'+'和'-'。family
模型中要使用的误差分布和链接函数的说明。这可以是命名族函数、族函数或调用族函数的结果的字符串。在 https://stat.ethz.ch/R-manual/R-devel/library/stats/html/family.html 参考 R 系列。目前支持以下系列:binomial
,gaussian
,poisson
,Gamma
和tweedie
。data
用于训练的 SparkDataFrame 或 R 的 glm 数据。epsilon
迭代的正收敛容差。maxit
给出最大 IRLS 迭代次数的整数。weightCol
权重列名称。如果未设置或NULL
,我们将所有实例权重视为 1.0。var.power
Tweedie 族中幂方差函数的索引。link.power
Tweedie 系列中电源链接函数的索引。stringIndexerOrderType
如何对字符串特征列的类别进行排序。这用于确定字符串特征的基本级别,作为编码字符串时删除排序后的最后一个类别。支持的选项有 "frequencyDesc"、"frequencyAsc"、"alphabetDesc" 和 "alphabetAsc"。默认值为"frequencyDesc"。当 ordering 设置为 "alphabetDesc" 时,这会在编码字符串时丢弃与 R 相同的类别。offsetCol
偏移列名称。如果未设置或为空,我们将所有实例偏移量视为 0.0。指定为偏移量的特征具有 1.0 的常数系数。
返回:
glm
返回拟合的广义线性模型。
注意:
从 1.5.0 开始的 glm
例子:
sparkR.session()
t <- as.data.frame(Titanic)
df <- createDataFrame(t)
model <- glm(Freq ~ Sex + Age, df, family = "gaussian")
summary(model)
相关用法
- R SparkR getNumPartitions用法及代码示例
- R SparkR getLocalProperty用法及代码示例
- R SparkR gapplyCollect用法及代码示例
- R SparkR gapply用法及代码示例
- R SparkR groupBy用法及代码示例
- R matrix转list用法及代码示例
- R SparkR freqItems用法及代码示例
- R SparkR intersectAll用法及代码示例
- R SparkR spark.decisionTree用法及代码示例
- R SparkR sparkR.callJMethod用法及代码示例
- R SparkR sample用法及代码示例
- R SparkR approxQuantile用法及代码示例
- R SparkR randomSplit用法及代码示例
- R SparkR describe用法及代码示例
- R SparkR withColumn用法及代码示例
- R SparkR read.stream用法及代码示例
- R SparkR join用法及代码示例
- R SparkR rbind用法及代码示例
- R SparkR windowPartitionBy用法及代码示例
- R SparkR count用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Generalized Linear Models (R-compliant)。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。