工作需要在大数据下进行数据挖掘，因此在开发机器进行了开发环境的搭建：IntelliJ IDEA + Spark；这样就可以使用IntelliJ IDEA在本地进行开发调试，之后再将作业提交到集群生产环境中运行，提升工作效率；本文对自己安装步骤以进行了简单的记录

0. 安装spark-1.3.0

因机器上已经安装了JDK（如果没安装先安装JDK），所以安装spark就简单两步：
a、下载解压：https://spark.apache.org/downloads.html
b、配系统路径：在 ~/.bashrc 文件中写入 , export PATH=$PATH:/spark解压路径/spark/bin

1.安装IntelliJ IDEA

a、官网下载IntelliJ IDEA ，最新版本的IntelliJ IDEA支持新建SBT工程，安装scala插件
b、在IntelliJ IDEA的“Configure”菜单中，选择“Plugins”，安装“Scala”插件。

2.跑Spark demo程序

a、创建New Project -> Scala -> Project SDK 选择JDK目录，Scala SDK 选择Scala目录。

b、选择菜单中的 File -> Project Structure -> libraries -> java，导入Spark安装目录下的“spark-assembly-1.3.0-hadoop1.0.4.jar”

c、运行Scala示例程序SparkPi： Spark安装目录的examples目录下/src/main/scala/org/apache/spark/examples，可以找到Scala编写的示例程序SparkPi.scala，该程序计算Pi值并输出。在Project的main目录下新建test.scala，复制Spark示例程序代码

d、编译运行：会出现了如下错误： Exception in thread “main” org.apache.spark.SparkException: A master URL must be set in your configuration

此时需要配置环境变量,选择菜单中的Run->Edit Configurations，修改Main class和VM options。在VM options中输入“-Dspark.master=local”指示本程序本地单线程运行。具体可以查看Spark官方文档http://spark.apache.org/docs/latest/running-on-yarn.html

3.生成jar包提交到集群

a、与本地local模式运行相同，创建 New project
b、选择菜单中的File->Project Structure->Artifact->jar->From Modules with dependencies，之后选择Main Class和输出jar的Directory。

c、在主菜单选择Build->Build Artifact编译生成jar包

d、将jar包使用spark-submit提交 $SPARK_HOME/bin/spark-submit –class “com.path.**.类名” –master local[] “jar包”