R SparkR glm用法及代碼示例

說明：

擬合廣義線性模型，類似於 R 的glm()。

用法：

## S4 method for signature 'formula,ANY,SparkDataFrame'
glm(
  formula,
  family = gaussian,
  data,
  epsilon = 1e-06,
  maxit = 25,
  weightCol = NULL,
  var.power = 0,
  link.power = 1 - var.power,
  stringIndexerOrderType = c("frequencyDesc", "frequencyAsc", "alphabetDesc",
    "alphabetAsc"),
  offsetCol = NULL
)

參數：

formula 要擬合的模型的符號說明。目前僅支持少數公式運算符，包括'~'、'.'、':'、'+'和'-'。
family 模型中要使用的誤差分布和鏈接函數的說明。這可以是命名族函數、族函數或調用族函數的結果的字符串。在 https://stat.ethz.ch/R-manual/R-devel/library/stats/html/family.html 參考 R 係列。目前支持以下係列：binomial , gaussian , poisson , Gamma 和 tweedie。
data 用於訓練的 SparkDataFrame 或 R 的 glm 數據。
epsilon 迭代的正收斂容差。
maxit 給出最大 IRLS 迭代次數的整數。
weightCol 權重列名稱。如果未設置或 NULL ，我們將所有實例權重視為 1.0。
var.power Tweedie 族中冪方差函數的索引。
link.power Tweedie 係列中電源鏈接函數的索引。
stringIndexerOrderType 如何對字符串特征列的類別進行排序。這用於確定字符串特征的基本級別，作為編碼字符串時刪除排序後的最後一個類別。支持的選項有 "frequencyDesc"、"frequencyAsc"、"alphabetDesc" 和 "alphabetAsc"。默認值為"frequencyDesc"。當 ordering 設置為 "alphabetDesc" 時，這會在編碼字符串時丟棄與 R 相同的類別。
offsetCol 偏移列名稱。如果未設置或為空，我們將所有實例偏移量視為 0.0。指定為偏移量的特征具有 1.0 的常數係數。

glm 返回擬合的廣義線性模型。

注意：

從 1.5.0 開始的 glm

例子：

sparkR.session()
t <- as.data.frame(Titanic)
df <- createDataFrame(t)
model <- glm(Freq ~ Sex + Age, df, family = "gaussian")
summary(model)

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 Generalized Linear Models (R-compliant)。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

說明：

用法：

參數：

返回：

注意：

例子：