标签:spark

Spark任务提交(Spark Submit)

qingchuan 技术教程 ,
Spark-Submit简介 spark-submit脚本用于在集群上启动应用程序,它位于Spark的bin目录中。这种启动方式可以通过统一的界面使用所有的Spark支持的集群管理功...

Spark Streaming入门

qingchuan 技术教程 , ,
Spark Streaming简介 Spark Streaming是Spark核心API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流式处理。数据可以从诸如Kafka,Flume,Kinesis或TC...

Spark二进制文件读写

qingchuan 编程语言
在大数据处理中,有时候要将spark集群上处理好的数据拷贝到本地做进一步处理:比如本地单机运算或者作为在线服务的数据。如果直接拷贝字符串文本,耗费带宽和...

Spark的Cache和Checkpoint

qingchuan 系统&架构 , ,
本文阐述了Spark中几种数据持久化方法Cache/Persist/Checkpoint的用法以及区别和联系,对于计算链条过长或者数据量较大的Spark任务有指导意义。原文来自:htt...