说明:
install.spark
下载 Spark 并将其安装到本地目录(如果找不到)。如果在环境中设置了SPARK_HOME,并且找到了该目录,则返回该目录。我们使用的 Spark 版本与 SparkR 版本相同。用户可以指定所需的 Hadoop 版本、远程镜像站点以及本地安装包的目录。
用法:
install.spark(
hadoopVersion = "2.7",
mirrorUrl = NULL,
localDir = NULL,
overwrite = FALSE
)
参数:
hadoopVersion
要安装的 Hadoop 版本。默认为"2.7"
。它可以采用 "x.y" 格式的其他版本号,其中 x 和 y 是整数。如果hadoopVersion = "without"
,则安装 "Hadoop free" 构建。有关详细信息,请参阅"Hadoop Free" Build。也可以使用其他补丁版本名称,例如"cdh4"
mirrorUrl
要使用的存储库的基本 URL。目录布局应遵循 Apache mirrors 。localDir
安装 Spark 的本地目录。该目录包含 Spark 包的 version-specific 个文件夹。默认是缓存目录的路径:- Mac OS X: '〜/ Library /缓存/Spark’
- Unix:$XDG_CACHE_HOME如果定义,否则'~/.cache/spark’
- 窗户:'%LOCALAPPDATA%\Apache\Spark\Cache’。
overwrite
如果TRUE
,下载并覆盖 localDir 中现有的 tar 文件并强制重新安装 Spark(以防本地目录或文件损坏)
细节:
从 mirrorUrl
和 hadoopVersion
推断出远程文件的完整 url。 mirrorUrl
指定 Spark 文件夹的远程路径。它后面是一个以 Spark 版本命名的子文件夹(对应于 SparkR),然后是 tar 文件名。文件名由四部分组成,即[Spark版本]-bin-[Hadoop版本].tgz。例如,来自 http://apache.osuosl.org
的 Hadoop 2.7 的 Spark 2.0.0 包的完整路径具有路径:http://apache.osuosl.org/spark/spark-2.0.0/spark-2.0.0-bin-hadoop2.7.tgz
。对于 hadoopVersion = "without"
,文件名中的 [Hadoop 版本] 则为 without-hadoop
。
返回:
找到或安装 Spark 的(不可见的)本地目录
注意:
install.spark 从 2.1.0 开始
例子:
install.spark()
相关用法
- R SparkR insertInto用法及代码示例
- R SparkR intersectAll用法及代码示例
- R SparkR intersect用法及代码示例
- R SparkR isStreaming用法及代码示例
- R SparkR isLocal用法及代码示例
- R SparkR isActive用法及代码示例
- R matrix转list用法及代码示例
- R SparkR freqItems用法及代码示例
- R SparkR spark.decisionTree用法及代码示例
- R SparkR sparkR.callJMethod用法及代码示例
- R SparkR sample用法及代码示例
- R SparkR approxQuantile用法及代码示例
- R SparkR glm用法及代码示例
- R SparkR randomSplit用法及代码示例
- R SparkR describe用法及代码示例
- R SparkR withColumn用法及代码示例
- R SparkR read.stream用法及代码示例
- R SparkR join用法及代码示例
- R SparkR rbind用法及代码示例
- R SparkR windowPartitionBy用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 Download and Install Apache Spark to a Local Directory。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。