pyspark.SparkContext
的用法。用法:
class pyspark.SparkContext(master=None, appName=None, sparkHome=None, pyFiles=None, environment=None, batchSize=0, serializer=PickleSerializer(), conf=None, gateway=None, jsc=None, profiler_cls=<class 'pyspark.profiler.BasicProfiler'>)
Spark 函數的主要入口點。 SparkContext 表示與 Spark 集群的連接,可用於在該集群上創建
RDD
和廣播變量。當你創建一個新的 SparkContext 時,至少應該設置 master 和 app 的名稱,或者通過這裏的命名參數或者通過
conf
。- master:str,可選
要連接的集群 URL(例如 mesos://host:port、spark://host:port、local[4])。
- appName:str,可選
您的作業名稱,顯示在集群 Web UI 上。
- sparkHome:str,可選
Spark 在集群節點上的安裝位置。
- pyFiles:列表,可選
要發送到集群並添加到 PYTHONPATH 的 .zip 或 .py 文件的集合。這些可以是本地文件係統或 HDFS、HTTP、HTTPS 或 FTP URL 上的路徑。
- environment:字典,可選
要在工作節點上設置的環境變量字典。
- batchSize:整數,可選
表示為單個 Java 對象的 Python 對象的數量。設置 1 禁用批處理,設置 0 以根據對象大小自動選擇批處理大小,或設置 -1 使用無限製的批處理大小
- serializer:
pyspark.serializers.Serializer
,可選 RDD 的序列化器。
- conf:
pyspark.SparkConf
,可選 設置 Spark 屬性的對象。
- gateway:
py4j.java_gateway.JavaGateway
,可選 使用現有的網關和 JVM,否則將實例化一個新的 JVM。這僅在內部使用。
- jsc:
py4j.java_gateway.JavaObject
,可選 JavaSparkContext 實例。這僅在內部使用。
- profiler_cls:類型,可選
用於進行分析的一類自定義 Profiler(默認為
pyspark.profiler.BasicProfiler
)。
參數:
注意:
每個 JVM 隻能有一個
SparkContext
處於活動狀態。在創建新的SparkContext
之前,您必須stop()
為活動的SparkContext
。SparkContext
實例不支持開箱即用地跨多個進程共享,並且PySpark 不保證multi-processing 執行。使用線程來代替並發處理目的。例子:
>>> from pyspark.context import SparkContext >>> sc = SparkContext('local', 'test') >>> sc2 = SparkContext('local', 'test2') Traceback (most recent call last): ... ValueError: ...
相關用法
- Python pyspark SparkContext.addFile用法及代碼示例
- Python pyspark SparkContext.union用法及代碼示例
- Python pyspark SparkContext.runJob用法及代碼示例
- Python pyspark SparkContext.parallelize用法及代碼示例
- Python pyspark SparkContext.range用法及代碼示例
- Python pyspark SparkContext.setJobGroup用法及代碼示例
- Python pyspark SparkContext.pickleFile用法及代碼示例
- Python pyspark SparkContext.applicationId用法及代碼示例
- Python pyspark SparkContext.wholeTextFiles用法及代碼示例
- Python pyspark SparkContext.textFile用法及代碼示例
- Python pyspark SparkConf用法及代碼示例
- Python pyspark SparkSession.createDataFrame用法及代碼示例
- Python pyspark SparkSession.table用法及代碼示例
- Python pyspark SparkSession用法及代碼示例
- Python pyspark SparkSession.builder.config用法及代碼示例
- Python pyspark SparkSession.getActiveSession用法及代碼示例
- Python pyspark SparkSession.range用法及代碼示例
- Python pyspark SparkSession.sql用法及代碼示例
- Python pyspark SparkSession.builder.getOrCreate用法及代碼示例
- Python pyspark SparseVector.parse用法及代碼示例
- Python pyspark SparseVector.dot用法及代碼示例
- Python pyspark SparseVector.squared_distance用法及代碼示例
- Python pyspark SparseVector.norm用法及代碼示例
- Python pyspark Series.asof用法及代碼示例
- Python pyspark Series.to_frame用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.SparkContext。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。