当前位置: 首页>>五花八门>>正文


mac上安装IntelliJ IDEA配置Spark开发环境

工作需要在大数据下进行数据挖掘,因此在开发机器进行了开发环境的搭建:IntelliJ IDEA + Spark; 这样就可以使用IntelliJ IDEA在本地进行开发调试,之后再将作业提交到集群生产环境中运行,提升工作效率;本文对自己安装步骤以进行了简单的记录

0. 安装spark-1.3.0

因机器上已经安装了JDK(如果没安装先安装JDK),所以安装spark就简单两步:

a、下载解压:https://spark.apache.org/downloads.html

b、配系统路径:在 ~/.bashrc 文件中写入 , export PATH=$PATH:/spark解压路径/spark/bin

1.安装IntelliJ IDEA

a、官网 下载IntelliJ IDEA , 最新版本的IntelliJ IDEA支持新建SBT工程,安装scala插件

b、在IntelliJ IDEA的“Configure”菜单中,选择“Plugins”,安装“Scala”插件。

2.跑Spark demo程序

a、创建New Project -> Scala -> Project SDK 选择JDK目录,Scala SDK 选择Scala目录。

b、选择菜单中的 File -> Project Structure -> libraries -> java,导入Spark安装目录 下的“spark-assembly-1.3.0-hadoop1.0.4.jar”

c、运行Scala示例程序SparkPi: Spark安装目录的examples目录下/src/main/scala/org/apache/spark/examples,可以找到Scala编写的示例程序SparkPi.scala,该程序计算Pi值并输出。在Project的main目录下新建test.scala,复制Spark示例程序代码

d、编译运行:会出现了如下错误: Exception in thread “main” org.apache.spark.SparkException: A master URL must be set in your configuration

此时需要配置环境变量,选择菜单中的Run->Edit Configurations,修改Main class和VM options。 在VM options中输入“-Dspark.master=local”指示本程序本地单线程运行。具体可以查看Spark官方文档http://spark.apache.org/docs/latest/running-on-yarn.html

3.生成jar包提交到集群

a、与本地local模式运行相同,创建 New project
b、选择菜单中的File->Project Structure->Artifact->jar->From Modules with dependencies,之后选择Main Class和输出jar的Directory。

c、在主菜单选择Build->Build Artifact编译生成jar包

d、将jar包使用spark-submit提交 $SPARK_HOME/bin/spark-submit –class “com.path.**.类名” –master local[] “jar包”

本文由《纯净天空》出品。文章地址: https://vimsky.com/article/2322.html,未经允许,请勿转载。