當前位置: 首頁>>五花八門>>正文


mac上安裝IntelliJ IDEA配置Spark開發環境

工作需要在大數據下進行數據挖掘,因此在開發機器進行了開發環境的搭建:IntelliJ IDEA + Spark; 這樣就可以使用IntelliJ IDEA在本地進行開發調試,之後再將作業提交到集群生產環境中運行,提升工作效率;本文對自己安裝步驟以進行了簡單的記錄

0. 安裝spark-1.3.0

因機器上已經安裝了JDK(如果沒安裝先安裝JDK),所以安裝spark就簡單兩步:

a、下載解壓:https://spark.apache.org/downloads.html

b、配係統路徑:在 ~/.bashrc 文件中寫入 , export PATH=$PATH:/spark解壓路徑/spark/bin

1.安裝IntelliJ IDEA

a、官網 下載IntelliJ IDEA , 最新版本的IntelliJ IDEA支持新建SBT工程,安裝scala插件

b、在IntelliJ IDEA的“Configure”菜單中,選擇“Plugins”,安裝“Scala”插件。

2.跑Spark demo程序

a、創建New Project -> Scala -> Project SDK 選擇JDK目錄,Scala SDK 選擇Scala目錄。

b、選擇菜單中的 File -> Project Structure -> libraries -> java,導入Spark安裝目錄 下的“spark-assembly-1.3.0-hadoop1.0.4.jar”

c、運行Scala示例程序SparkPi: Spark安裝目錄的examples目錄下/src/main/scala/org/apache/spark/examples,可以找到Scala編寫的示例程序SparkPi.scala,該程序計算Pi值並輸出。在Project的main目錄下新建test.scala,複製Spark示例程序代碼

d、編譯運行:會出現了如下錯誤: Exception in thread “main” org.apache.spark.SparkException: A master URL must be set in your configuration

此時需要配置環境變量,選擇菜單中的Run->Edit Configurations,修改Main class和VM options。 在VM options中輸入“-Dspark.master=local”指示本程序本地單線程運行。具體可以查看Spark官方文檔http://spark.apache.org/docs/latest/running-on-yarn.html

3.生成jar包提交到集群

a、與本地local模式運行相同,創建 New project
b、選擇菜單中的File->Project Structure->Artifact->jar->From Modules with dependencies,之後選擇Main Class和輸出jar的Directory。

c、在主菜單選擇Build->Build Artifact編譯生成jar包

d、將jar包使用spark-submit提交 $SPARK_HOME/bin/spark-submit –class “com.path.**.類名” –master local[] “jar包”

本文由《純淨天空》出品。文章地址: https://vimsky.com/zh-tw/article/2322.html,未經允許,請勿轉載。