當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


R SparkR glm用法及代碼示例

說明:

擬合廣義線性模型,類似於 R 的glm()。

用法:

## S4 method for signature 'formula,ANY,SparkDataFrame'
glm(
  formula,
  family = gaussian,
  data,
  epsilon = 1e-06,
  maxit = 25,
  weightCol = NULL,
  var.power = 0,
  link.power = 1 - var.power,
  stringIndexerOrderType = c("frequencyDesc", "frequencyAsc", "alphabetDesc",
    "alphabetAsc"),
  offsetCol = NULL
)

參數:

  • formula 要擬合的模型的符號說明。目前僅支持少數公式運算符,包括'~'、'.'、':'、'+'和'-'。
  • family 模型中要使用的誤差分布和鏈接函數的說明。這可以是命名族函數、族函數或調用族函數的結果的字符串。在 https://stat.ethz.ch/R-manual/R-devel/library/stats/html/family.html 參考 R 係列。目前支持以下係列:binomial , gaussian , poisson , Gammatweedie
  • data 用於訓練的 SparkDataFrame 或 R 的 glm 數據。
  • epsilon 迭代的正收斂容差。
  • maxit 給出最大 IRLS 迭代次數的整數。
  • weightCol 權重列名稱。如果未設置或 NULL ,我們將所有實例權重視為 1.0。
  • var.power Tweedie 族中冪方差函數的索引。
  • link.power Tweedie 係列中電源鏈接函數的索引。
  • stringIndexerOrderType 如何對字符串特征列的類別進行排序。這用於確定字符串特征的基本級別,作為編碼字符串時刪除排序後的最後一個類別。支持的選項有 "frequencyDesc"、"frequencyAsc"、"alphabetDesc" 和 "alphabetAsc"。默認值為"frequencyDesc"。當 ordering 設置為 "alphabetDesc" 時,這會在編碼字符串時丟棄與 R 相同的類別。
  • offsetCol 偏移列名稱。如果未設置或為空,我們將所有實例偏移量視為 0.0。指定為偏移量的特征具有 1.0 的常數係數。

返回:

glm 返回擬合的廣義線性模型。

注意:

從 1.5.0 開始的 glm

例子:

sparkR.session()
t <- as.data.frame(Titanic)
df <- createDataFrame(t)
model <- glm(Freq ~ Sex + Age, df, family = "gaussian")
summary(model)

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 Generalized Linear Models (R-compliant)。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。