當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R SparkR sparkR.session用法及代碼示例


說明:

SparkSession 是 SparkR 的入口點。 sparkR.session 獲取現有的 SparkSession 或初始化一個新的 SparkSession。可以在 ... 中設置其他 Spark 屬性,並且這些命名參數優先於 master , appName 中的值,即 sparkConfig 的命名列表。

用法:

sparkR.session(
  master = "",
  appName = "SparkR",
  sparkHome = Sys.getenv("SPARK_HOME"),
  sparkConfig = list(),
  sparkJars = "",
  sparkPackages = "",
  enableHiveSupport = TRUE,
  ...
)

參數:

  • master Spark 主 URL。
  • appName 向集群管理器注冊的應用程序名稱。
  • sparkHome Spark 主目錄。
  • sparkConfig 要在工作節點上設置的 Spark 配置的命名列表。
  • sparkJars 要傳遞給工作節點的 jar 文件的字符向量。
  • sparkPackages 包坐標的特征向量
  • enableHiveSupport 啟用對 Hive 的支持,如果不使用 Hive 支持構建則回退;一旦設置,就不能在現有會話上關閉
  • ... 傳遞給方法的命名 Spark 屬性。

細節:

在交互式會話中調用此方法時,會檢查 Spark 安裝,如果未找到,則會自動下載和緩存。或者,可以手動調用install.spark

例如,當通過 sql 語句 CREATE TABLE 創建托管表時,會在當前目錄中自動創建默認倉庫。要更改倉庫的位置,請將命名參數spark.sql.warehouse.dir 設置為 SparkSession。與倉庫一起,在初始化新的 SparkSession 時,也可以在當前目錄中自動創建伴隨的元存儲,並將 enableHiveSupport 設置為 TRUE ,這是默認設置。有關更多詳細信息,請參閱 http://spark.apache.org/docs/latest/sql-programming-guide.html#hive-tables 處的 Hive 配置。

有關如何初始化和使用 SparkR 的詳細信息,請參閱 SparkR 編程指南,網址為http://spark.apache.org/docs/latest/sparkr.html#starting-up-sparksession.

注意:

sparkR.session 自 2.0.0 起

例子:

sparkR.session()
df <- read.json(path)

sparkR.session("local[2]", "SparkR", "/home/spark")
sparkR.session("yarn", "SparkR", "/home/spark",
               list(spark.executor.memory="4g", spark.submit.deployMode="client"),
               c("one.jar", "two.jar", "three.jar"),
               c("com.databricks:spark-avro_2.12:2.0.1"))
sparkR.session(spark.master = "yarn", spark.submit.deployMode = "client",
               spark.executor.memory = "4g")

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 Get the existing SparkSession or initialize a new SparkSession.。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。