当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R SparkR sparkR.session用法及代码示例


说明:

SparkSession 是 SparkR 的入口点。 sparkR.session 获取现有的 SparkSession 或初始化一个新的 SparkSession。可以在 ... 中设置其他 Spark 属性,并且这些命名参数优先于 master , appName 中的值,即 sparkConfig 的命名列表。

用法:

sparkR.session(
  master = "",
  appName = "SparkR",
  sparkHome = Sys.getenv("SPARK_HOME"),
  sparkConfig = list(),
  sparkJars = "",
  sparkPackages = "",
  enableHiveSupport = TRUE,
  ...
)

参数:

  • master Spark 主 URL。
  • appName 向集群管理器注册的应用程序名称。
  • sparkHome Spark 主目录。
  • sparkConfig 要在工作节点上设置的 Spark 配置的命名列表。
  • sparkJars 要传递给工作节点的 jar 文件的字符向量。
  • sparkPackages 包坐标的特征向量
  • enableHiveSupport 启用对 Hive 的支持,如果不使用 Hive 支持构建则回退;一旦设置,就不能在现有会话上关闭
  • ... 传递给方法的命名 Spark 属性。

细节:

在交互式会话中调用此方法时,会检查 Spark 安装,如果未找到,则会自动下载和缓存。或者,可以手动调用install.spark

例如,当通过 sql 语句 CREATE TABLE 创建托管表时,会在当前目录中自动创建默认仓库。要更改仓库的位置,请将命名参数spark.sql.warehouse.dir 设置为 SparkSession。与仓库一起,在初始化新的 SparkSession 时,也可以在当前目录中自动创建伴随的元存储,并将 enableHiveSupport 设置为 TRUE ,这是默认设置。有关更多详细信息,请参阅 http://spark.apache.org/docs/latest/sql-programming-guide.html#hive-tables 处的 Hive 配置。

有关如何初始化和使用 SparkR 的详细信息,请参阅 SparkR 编程指南,网址为http://spark.apache.org/docs/latest/sparkr.html#starting-up-sparksession.

注意:

sparkR.session 自 2.0.0 起

例子:

sparkR.session()
df <- read.json(path)

sparkR.session("local[2]", "SparkR", "/home/spark")
sparkR.session("yarn", "SparkR", "/home/spark",
               list(spark.executor.memory="4g", spark.submit.deployMode="client"),
               c("one.jar", "two.jar", "three.jar"),
               c("com.databricks:spark-avro_2.12:2.0.1"))
sparkR.session(spark.master = "yarn", spark.submit.deployMode = "client",
               spark.executor.memory = "4g")

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Get the existing SparkSession or initialize a new SparkSession.。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。