spark - 純淨天空

如何覆蓋spark中的輸出目錄

@貔貅 ♢spark, 覆蓋, 輸出

我有一個Spark Streaming(流式)應用程序，每分鍾產生一個數據集。我需要保存/覆蓋處理的數據的結果。當我試圖覆蓋數據集時，拋異常org.apache.hadoop.mapre...

如何添加一個新的列到Spark DataFrame(使用PySpark)？

@貔貅 ♢DataFrame, pyspark, Python, spark

我有一個Spark DataFrame(使用PySpark 1.5.1)，並想添加一個新的列。我已經嘗試了以下方法，但沒有任何成功的： type(randomed_hours) # => list # ...

Spark任務提交(Spark Submit)

@丹陽 ♢spark, spark-submit

Spark-Submit簡介 spark-submit腳本用於在集群上啟動應用程序,它位於Spark的bin目錄中。這種啟動方式可以通過統一的界麵使用所有的Spark支持的集群管理功...

Spark Streaming入門

@丹陽 ♢scala, spark, spark-streaming

Spark Streaming簡介 Spark Streaming是Spark核心API的擴展，可實現實時數據流的可擴展，高吞吐量，容錯流式處理。數據可以從諸如Kafka，Flume，Kinesis或TC...

Spark中ml和mllib的區別

@丹陽 ♢ml, mllib, spark

Spark中ml和mllib的主要區別和聯係如下： ml和mllib都是Spark中的機器學習庫，目前常用的機器學習功能2個庫都能滿足需求。 spark官方推薦使用ml, ...

pyspark LogisticRegressionModel用法示例

@丹陽 ♢LogisticRegression, pyspark, Python, spark

類用法簡介 class pyspark.mllib.classification.LogisticRegressionModel(weights, intercept, numFeatures, numClasses) LogisticRegressionModel: 使用...

Spark創建DataFrame的三種方法

@丹陽 ♢DataFrame, scala, spark

跟關係數據庫的表(Table)一樣，DataFrame是Spark中對帶模式(schema)行列數據的抽象。DateFrame廣泛應用於使用SQL處理大數據的各種場景。創建DataFrame有很多...

Spark讀取/保存本地文件

@丹陽 ♢hdfs, spark, 本地文件

本文介紹兩點： 1. 如何用Spark讀取本文文件內容。 2. 如何用Spark將數據寫到本地，特別是將大文件寫到本地。 Spark讀取本地文件內容通常情況下，如...

mac上安裝IntelliJ IDEA配置Spark開發環境

@zrb ♢IntelliJ IDEA, spark, 開發環境

工作需要在大數據下進行數據挖掘，因此在開發機器進行了開發環境的搭建：IntelliJ IDEA + Spark；這樣就可以使用IntelliJ IDEA在本地進行開發調試，之後再將...

Apache Spark和Apache Storm的區別

@丹陽 ♢spark, storm

Apache Spark和Apache Store的區別是什麽？他們各自適用於什麽樣的應用場景？這是stackoverflow上的一個問題，這裏整理簡要版回答如...

Spark2.1特征處理:提取/轉換/選擇

@丹陽 ♢spark, 特征選擇

本文是Spark2.1官方文檔的翻譯：Extracting, transforming and selecting features => Spark特征抽取、特征轉換、特征選擇，全文目錄如下： Feature ...

Spark二進製文件讀寫

@丹陽 ♢spark, 二進製, 讀寫

在大數據處理中，有時候要將spark集群上處理好的數據拷貝到本地做進一步處理：比如本地單機運算或者作為在線服務的數據。如果直接拷貝字符串文本，耗費帶寬和...

Spark機器學習庫指南[Spark 1.3.1版]——協同過濾(Collaborative Filtering)

@admin4blogs ♢spark, 協同過濾, 推薦, 機器學習

下麵是章節協同過濾的目錄(其他內容參見全文目錄) 協同過濾顯示反饋VS隱士反饋正則化參數的擴展示例教程協同過濾協同過...

Spark的Cache和Checkpoint

@丹陽 ♢cache, checkpoint, spark

本文闡述了Spark中幾種數據持久化方法Cache/Persist/Checkpoint的用法以及區別和聯係，對於計算鏈條過長或者數據量較大的Spark任務有指導意義。原文來自：htt...

Spark機器學習庫指南[Spark 1.3.1版]

@丹陽 ♢MLib, spark, 機器學習, 翻譯

本文內容關鍵詞：Spark官方文檔，Spark教程， Spark MLlib教程。本文翻譯自Spark官方文檔：Machine Learning Library (MLlib) Guide ，代碼示例以Python版...

Spark ALS.train()迭代次數過多導致java.lang.StackOverflowError

@丹陽 ♢ALS, spark, StackOverflowError

問題描述：使用Spark ALS.train()做協同過濾的模型訓練時，迭代次數過多(iteration>=30)可能導致java.lang.StackOverflowError的錯誤。解決方案：一...

標簽：spark