說明:
擬合廣義線性模型,類似於 R 的glm()。
用法:
## S4 method for signature 'formula,ANY,SparkDataFrame'
glm(
formula,
family = gaussian,
data,
epsilon = 1e-06,
maxit = 25,
weightCol = NULL,
var.power = 0,
link.power = 1 - var.power,
stringIndexerOrderType = c("frequencyDesc", "frequencyAsc", "alphabetDesc",
"alphabetAsc"),
offsetCol = NULL
)
參數:
formula
要擬合的模型的符號說明。目前僅支持少數公式運算符,包括'~'、'.'、':'、'+'和'-'。family
模型中要使用的誤差分布和鏈接函數的說明。這可以是命名族函數、族函數或調用族函數的結果的字符串。在 https://stat.ethz.ch/R-manual/R-devel/library/stats/html/family.html 參考 R 係列。目前支持以下係列:binomial
,gaussian
,poisson
,Gamma
和tweedie
。data
用於訓練的 SparkDataFrame 或 R 的 glm 數據。epsilon
迭代的正收斂容差。maxit
給出最大 IRLS 迭代次數的整數。weightCol
權重列名稱。如果未設置或NULL
,我們將所有實例權重視為 1.0。var.power
Tweedie 族中冪方差函數的索引。link.power
Tweedie 係列中電源鏈接函數的索引。stringIndexerOrderType
如何對字符串特征列的類別進行排序。這用於確定字符串特征的基本級別,作為編碼字符串時刪除排序後的最後一個類別。支持的選項有 "frequencyDesc"、"frequencyAsc"、"alphabetDesc" 和 "alphabetAsc"。默認值為"frequencyDesc"。當 ordering 設置為 "alphabetDesc" 時,這會在編碼字符串時丟棄與 R 相同的類別。offsetCol
偏移列名稱。如果未設置或為空,我們將所有實例偏移量視為 0.0。指定為偏移量的特征具有 1.0 的常數係數。
返回:
glm
返回擬合的廣義線性模型。
注意:
從 1.5.0 開始的 glm
例子:
sparkR.session()
t <- as.data.frame(Titanic)
df <- createDataFrame(t)
model <- glm(Freq ~ Sex + Age, df, family = "gaussian")
summary(model)
相關用法
- R SparkR getNumPartitions用法及代碼示例
- R SparkR getLocalProperty用法及代碼示例
- R SparkR gapplyCollect用法及代碼示例
- R SparkR gapply用法及代碼示例
- R SparkR groupBy用法及代碼示例
- R matrix轉list用法及代碼示例
- R SparkR freqItems用法及代碼示例
- R SparkR intersectAll用法及代碼示例
- R SparkR spark.decisionTree用法及代碼示例
- R SparkR sparkR.callJMethod用法及代碼示例
- R SparkR sample用法及代碼示例
- R SparkR approxQuantile用法及代碼示例
- R SparkR randomSplit用法及代碼示例
- R SparkR describe用法及代碼示例
- R SparkR withColumn用法及代碼示例
- R SparkR read.stream用法及代碼示例
- R SparkR join用法及代碼示例
- R SparkR rbind用法及代碼示例
- R SparkR windowPartitionBy用法及代碼示例
- R SparkR count用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 Generalized Linear Models (R-compliant)。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。