当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark SparkContext用法及代码示例


本文简要介绍 pyspark.SparkContext 的用法。

用法:

class pyspark.SparkContext(master=None, appName=None, sparkHome=None, pyFiles=None, environment=None, batchSize=0, serializer=PickleSerializer(), conf=None, gateway=None, jsc=None, profiler_cls=<class 'pyspark.profiler.BasicProfiler'>)

Spark 函数的主要入口点。 SparkContext 表示与 Spark 集群的连接,可用于在该集群上创建 RDD 和广播变量。

当你创建一个新的 SparkContext 时,至少应该设置 master 和 app 的名称,或者通过这里的命名参数或者通过 conf

参数

masterstr,可选

要连接的集群 URL(例如 mesos://host:port、spark://host:port、local[4])。

appNamestr,可选

您的作业名称,显示在集群 Web UI 上。

sparkHomestr,可选

Spark 在集群节点上的安装位置。

pyFiles列表,可选

要发送到集群并添加到 PYTHONPATH 的 .zip 或 .py 文件的集合。这些可以是本地文件系统或 HDFS、HTTP、HTTPS 或 FTP URL 上的路径。

environment字典,可选

要在工作节点上设置的环境变量字典。

batchSize整数,可选

表示为单个 Java 对象的 Python 对象的数量。设置 1 禁用批处理,设置 0 以根据对象大小自动选择批处理大小,或设置 -1 使用无限制的批处理大小

serializerpyspark.serializers.Serializer ,可选

RDD 的序列化器。

conf pyspark.SparkConf ,可选

设置 Spark 属性的对象。

gatewaypy4j.java_gateway.JavaGateway ,可选

使用现有的网关和 JVM,否则将实例化一个新的 JVM。这仅在内部使用。

jscpy4j.java_gateway.JavaObject ,可选

JavaSparkContext 实例。这仅在内部使用。

profiler_cls类型,可选

用于进行分析的一类自定义 Profiler(默认为 pyspark.profiler.BasicProfiler )。

注意

每个 JVM 只能有一个 SparkContext 处于活动状态。在创建新的SparkContext 之前,您必须stop() 为活动的SparkContext

SparkContext 实例不支持开箱即用地跨多个进程共享,并且PySpark 不保证multi-processing 执行。使用线程来代替并发处理目的。

例子

>>> from pyspark.context import SparkContext
>>> sc = SparkContext('local', 'test')
>>> sc2 = SparkContext('local', 'test2') 
Traceback (most recent call last):
    ...
ValueError: ...

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.SparkContext。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。