Python pyspark SparkContext用法及代码示例

本文简要介绍 pyspark.SparkContext 的用法。

用法: class pyspark.SparkContext(master=None, appName=None, sparkHome=None, pyFiles=None, environment=None, batchSize=0, serializer=PickleSerializer(), conf=None, gateway=None, jsc=None, profiler_cls=<class 'pyspark.profiler.BasicProfiler'>)

Spark 函数的主要入口点。 SparkContext 表示与 Spark 集群的连接，可用于在该集群上创建 RDD 和广播变量。

当你创建一个新的 SparkContext 时，至少应该设置 master 和 app 的名称，或者通过这里的命名参数或者通过 conf 。

参数：

master：str，可选: 要连接的集群 URL(例如 mesos://host:port、spark://host:port、local[4])。
appName：str，可选: 您的作业名称，显示在集群 Web UI 上。
sparkHome：str，可选: Spark 在集群节点上的安装位置。
pyFiles：列表，可选: 要发送到集群并添加到 PYTHONPATH 的 .zip 或 .py 文件的集合。这些可以是本地文件系统或 HDFS、HTTP、HTTPS 或 FTP URL 上的路径。
environment：字典，可选: 要在工作节点上设置的环境变量字典。
batchSize：整数，可选: 表示为单个 Java 对象的 Python 对象的数量。设置 1 禁用批处理，设置 0 以根据对象大小自动选择批处理大小，或设置 -1 使用无限制的批处理大小
serializer：pyspark.serializers.Serializer ，可选: RDD 的序列化器。
conf： pyspark.SparkConf ，可选: 设置 Spark 属性的对象。
gateway：py4j.java_gateway.JavaGateway ，可选: 使用现有的网关和 JVM，否则将实例化一个新的 JVM。这仅在内部使用。
jsc：py4j.java_gateway.JavaObject ，可选: JavaSparkContext 实例。这仅在内部使用。
profiler_cls：类型，可选: 用于进行分析的一类自定义 Profiler(默认为 pyspark.profiler.BasicProfiler )。

注意：

每个 JVM 只能有一个 SparkContext 处于活动状态。在创建新的SparkContext 之前，您必须stop() 为活动的SparkContext。

SparkContext 实例不支持开箱即用地跨多个进程共享，并且PySpark 不保证multi-processing 执行。使用线程来代替并发处理目的。

例子：

>>> from pyspark.context import SparkContext
>>> sc = SparkContext('local', 'test')
>>> sc2 = SparkContext('local', 'test2') 
Traceback (most recent call last):
    ...
ValueError: ...

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.SparkContext。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。