标签:spark

Spark任务提交(Spark Submit)

qingchuan 技术教程 228 次浏览 ,
Spark-Submit简介 spark-submit脚本用于在集群上启动应用程序,它位于Spark的bin目录中。这种启动方式可以通过统一的界面使用所有的Spark支持的集群管理功能,因此您不必为每个应用程序专门配置应用程序。 绑定应用程序的依赖关系 ...

Spark Streaming入门

qingchuan 技术教程 107 次浏览 , ,
Spark Streaming简介 Spark Streaming是Spark核心API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流式处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字的许多来源中获取,并且可以使用由高级函数(如map,reduce,join和...

Spark中ml和mllib的区别

qingchuan 机器学习 209 次浏览 , ,
Spark中ml和mllib的主要区别和联系如下: ml和mllib都是Spark中的机器学习库,目前常用的机器学习功能2个库都能满足需求。 spark官方推荐使用ml, 因为ml功能更全面更灵活,未来会主要支持ml,mllib很有可能会被废弃(据说可能是在spa...

Spark创建DataFrame的三种方法

qingchuan 编程&语言 460 次浏览 , ,
跟关系数据库的表(Table)一样,DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。创建DataFrame有很多种方法,比如从本地List创建、从RDD创建或者从源数据创建,下面简要介绍创建...

Spark读取/保存本地文件

qingchuan 技术问答 1,297 次浏览 ,
本文介绍两点: 1. 如何用Spark读取本文文件内容。 2. 如何用Spark将数据写到本地,特别是将大文件写到本地。 Spark读取本地文件内容 通常情况下,如果用下面的代码读取本地文件: val data = sc.textFile("somefile.txt") 直接这...

Apache Spark和Apache Storm的区别

qingchuan 系统&架构 1,410 次浏览 ,
      Apache Spark和Apache Store的区别是什么?他们各自适用于什么样的应用场景?这是stackoverflow上的一个问题,这里整理简要版回答如下:       Apache Spark是基于内存的分布式...

Spark二进制文件读写

qingchuan 编程&语言 2,026 次浏览
在大数据处理中,有时候要将spark集群上处理好的数据拷贝到本地做进一步处理:比如本地单机运算或者作为在线服务的数据。如果直接拷贝字符串文本,耗费带宽和时间。如何来优化这个拷贝性能呢?假设要拷贝的是海量整数数据,比如Int32...

Spark的Cache和Checkpoint

qingchuan 系统&架构 1,876 次浏览 , ,
本文阐述了Spark中几种数据持久化方法Cache/Persist/Checkpoint的用法以及区别和联系,对于计算链条过长或者数据量较大的Spark任务有指导意义。原文来自:https://github.com/JerryLead/SparkInternals/blob/master/markdown/6-CacheA...

Spark机器学习库指南[Spark 1.3.1版]

qingchuan 机器学习 7,686 次浏览 , , ,
本文内容关键词:Spark官方文档,Spark教程, Spark MLlib教程。 本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以Python版为主,部分Python不支持的功能保留原理说明,代码示例略去,另外翻...
Go