spark - 纯净天空

如何覆盖spark中的输出目录

@貔貅 ♢spark, 覆盖, 输出

我有一个Spark Streaming(流式)应用程序，每分钟产生一个数据集。我需要保存/覆盖处理的数据的结果。当我试图覆盖数据集时，抛异常org.apache.hadoop.mapre...

如何添加一个新的列到Spark DataFrame(使用PySpark)？

@貔貅 ♢DataFrame, pyspark, Python, spark

我有一个Spark DataFrame(使用PySpark 1.5.1)，并想添加一个新的列。我已经尝试了以下方法，但没有任何成功的： type(randomed_hours) # => list # ...

Spark任务提交(Spark Submit)

@丹阳 ♢spark, spark-submit

Spark-Submit简介 spark-submit脚本用于在集群上启动应用程序,它位于Spark的bin目录中。这种启动方式可以通过统一的界面使用所有的Spark支持的集群管理功...

Spark Streaming入门

@丹阳 ♢scala, spark, spark-streaming

Spark Streaming简介 Spark Streaming是Spark核心API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流式处理。数据可以从诸如Kafka，Flume，Kinesis或TC...

Spark中ml和mllib的区别

@丹阳 ♢ml, mllib, spark

Spark中ml和mllib的主要区别和联系如下： ml和mllib都是Spark中的机器学习库，目前常用的机器学习功能2个库都能满足需求。 spark官方推荐使用ml, ...

pyspark LogisticRegressionModel用法示例

@丹阳 ♢LogisticRegression, pyspark, Python, spark

类用法简介 class pyspark.mllib.classification.LogisticRegressionModel(weights, intercept, numFeatures, numClasses) LogisticRegressionModel: 使用...

Spark创建DataFrame的三种方法

@丹阳 ♢DataFrame, scala, spark

跟关系数据库的表(Table)一样，DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。创建DataFrame有很多...

Spark读取/保存本地文件

@丹阳 ♢hdfs, spark, 本地文件

本文介绍两点： 1. 如何用Spark读取本文文件内容。 2. 如何用Spark将数据写到本地，特别是将大文件写到本地。 Spark读取本地文件内容通常情况下，如...

mac上安装IntelliJ IDEA配置Spark开发环境

@zrb ♢IntelliJ IDEA, spark, 开发环境

工作需要在大数据下进行数据挖掘，因此在开发机器进行了开发环境的搭建：IntelliJ IDEA + Spark；这样就可以使用IntelliJ IDEA在本地进行开发调试，之后再将...

Apache Spark和Apache Storm的区别

@丹阳 ♢spark, storm

Apache Spark和Apache Store的区别是什么？他们各自适用于什么样的应用场景？这是stackoverflow上的一个问题，这里整理简要版回答如...

Spark2.1特征处理:提取/转换/选择

@丹阳 ♢spark, 特征选择

本文是Spark2.1官方文档的翻译：Extracting, transforming and selecting features => Spark特征抽取、特征转换、特征选择，全文目录如下： Feature ...

Spark二进制文件读写

@丹阳 ♢spark, 二进制, 读写

在大数据处理中，有时候要将spark集群上处理好的数据拷贝到本地做进一步处理：比如本地单机运算或者作为在线服务的数据。如果直接拷贝字符串文本，耗费带宽和...

Spark机器学习库指南[Spark 1.3.1版]——协同过滤(Collaborative Filtering)

@admin4blogs ♢spark, 协同过滤, 推荐, 机器学习

下面是章节协同过滤的目录(其他内容参见全文目录) 协同过滤显示反馈VS隐士反馈正则化参数的扩展示例教程协同过滤协同过...

Spark的Cache和Checkpoint

@丹阳 ♢cache, checkpoint, spark

本文阐述了Spark中几种数据持久化方法Cache/Persist/Checkpoint的用法以及区别和联系，对于计算链条过长或者数据量较大的Spark任务有指导意义。原文来自：htt...

Spark机器学习库指南[Spark 1.3.1版]

@丹阳 ♢MLib, spark, 机器学习, 翻译

本文内容关键词：Spark官方文档，Spark教程， Spark MLlib教程。本文翻译自Spark官方文档：Machine Learning Library (MLlib) Guide ，代码示例以Python版...

Spark ALS.train()迭代次数过多导致java.lang.StackOverflowError

@丹阳 ♢ALS, spark, StackOverflowError

问题描述：使用Spark ALS.train()做协同过滤的模型训练时，迭代次数过多(iteration>=30)可能导致java.lang.StackOverflowError的错误。解决方案：一...

标签：spark