當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark SparkContext用法及代碼示例


本文簡要介紹 pyspark.SparkContext 的用法。

用法:

class pyspark.SparkContext(master=None, appName=None, sparkHome=None, pyFiles=None, environment=None, batchSize=0, serializer=PickleSerializer(), conf=None, gateway=None, jsc=None, profiler_cls=<class 'pyspark.profiler.BasicProfiler'>)

Spark 函數的主要入口點。 SparkContext 表示與 Spark 集群的連接,可用於在該集群上創建 RDD 和廣播變量。

當你創建一個新的 SparkContext 時,至少應該設置 master 和 app 的名稱,或者通過這裏的命名參數或者通過 conf

參數

masterstr,可選

要連接的集群 URL(例如 mesos://host:port、spark://host:port、local[4])。

appNamestr,可選

您的作業名稱,顯示在集群 Web UI 上。

sparkHomestr,可選

Spark 在集群節點上的安裝位置。

pyFiles列表,可選

要發送到集群並添加到 PYTHONPATH 的 .zip 或 .py 文件的集合。這些可以是本地文件係統或 HDFS、HTTP、HTTPS 或 FTP URL 上的路徑。

environment字典,可選

要在工作節點上設置的環境變量字典。

batchSize整數,可選

表示為單個 Java 對象的 Python 對象的數量。設置 1 禁用批處理,設置 0 以根據對象大小自動選擇批處理大小,或設置 -1 使用無限製的批處理大小

serializerpyspark.serializers.Serializer ,可選

RDD 的序列化器。

conf pyspark.SparkConf ,可選

設置 Spark 屬性的對象。

gatewaypy4j.java_gateway.JavaGateway ,可選

使用現有的網關和 JVM,否則將實例化一個新的 JVM。這僅在內部使用。

jscpy4j.java_gateway.JavaObject ,可選

JavaSparkContext 實例。這僅在內部使用。

profiler_cls類型,可選

用於進行分析的一類自定義 Profiler(默認為 pyspark.profiler.BasicProfiler )。

注意

每個 JVM 隻能有一個 SparkContext 處於活動狀態。在創建新的SparkContext 之前,您必須stop() 為活動的SparkContext

SparkContext 實例不支持開箱即用地跨多個進程共享,並且PySpark 不保證multi-processing 執行。使用線程來代替並發處理目的。

例子

>>> from pyspark.context import SparkContext
>>> sc = SparkContext('local', 'test')
>>> sc2 = SparkContext('local', 'test2') 
Traceback (most recent call last):
    ...
ValueError: ...

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.SparkContext。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。