Python pyspark SparkContext用法及代碼示例

本文簡要介紹 pyspark.SparkContext 的用法。

用法: class pyspark.SparkContext(master=None, appName=None, sparkHome=None, pyFiles=None, environment=None, batchSize=0, serializer=PickleSerializer(), conf=None, gateway=None, jsc=None, profiler_cls=<class 'pyspark.profiler.BasicProfiler'>)

Spark 函數的主要入口點。 SparkContext 表示與 Spark 集群的連接，可用於在該集群上創建 RDD 和廣播變量。

當你創建一個新的 SparkContext 時，至少應該設置 master 和 app 的名稱，或者通過這裏的命名參數或者通過 conf 。

參數：

master：str，可選: 要連接的集群 URL(例如 mesos://host:port、spark://host:port、local[4])。
appName：str，可選: 您的作業名稱，顯示在集群 Web UI 上。
sparkHome：str，可選: Spark 在集群節點上的安裝位置。
pyFiles：列表，可選: 要發送到集群並添加到 PYTHONPATH 的 .zip 或 .py 文件的集合。這些可以是本地文件係統或 HDFS、HTTP、HTTPS 或 FTP URL 上的路徑。
environment：字典，可選: 要在工作節點上設置的環境變量字典。
batchSize：整數，可選: 表示為單個 Java 對象的 Python 對象的數量。設置 1 禁用批處理，設置 0 以根據對象大小自動選擇批處理大小，或設置 -1 使用無限製的批處理大小
serializer：pyspark.serializers.Serializer ，可選: RDD 的序列化器。
conf： pyspark.SparkConf ，可選: 設置 Spark 屬性的對象。
gateway：py4j.java_gateway.JavaGateway ，可選: 使用現有的網關和 JVM，否則將實例化一個新的 JVM。這僅在內部使用。
jsc：py4j.java_gateway.JavaObject ，可選: JavaSparkContext 實例。這僅在內部使用。
profiler_cls：類型，可選: 用於進行分析的一類自定義 Profiler(默認為 pyspark.profiler.BasicProfiler )。

注意：

每個 JVM 隻能有一個 SparkContext 處於活動狀態。在創建新的SparkContext 之前，您必須stop() 為活動的SparkContext。

SparkContext 實例不支持開箱即用地跨多個進程共享，並且PySpark 不保證multi-processing 執行。使用線程來代替並發處理目的。

例子：

>>> from pyspark.context import SparkContext
>>> sc = SparkContext('local', 'test')
>>> sc2 = SparkContext('local', 'test2') 
Traceback (most recent call last):
    ...
ValueError: ...

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.SparkContext。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。