pyspark.SparkContext
的用法。用法:
class pyspark.SparkContext(master=None, appName=None, sparkHome=None, pyFiles=None, environment=None, batchSize=0, serializer=PickleSerializer(), conf=None, gateway=None, jsc=None, profiler_cls=<class 'pyspark.profiler.BasicProfiler'>)
Spark 函数的主要入口点。 SparkContext 表示与 Spark 集群的连接,可用于在该集群上创建
RDD
和广播变量。当你创建一个新的 SparkContext 时,至少应该设置 master 和 app 的名称,或者通过这里的命名参数或者通过
conf
。- master:str,可选
要连接的集群 URL(例如 mesos://host:port、spark://host:port、local[4])。
- appName:str,可选
您的作业名称,显示在集群 Web UI 上。
- sparkHome:str,可选
Spark 在集群节点上的安装位置。
- pyFiles:列表,可选
要发送到集群并添加到 PYTHONPATH 的 .zip 或 .py 文件的集合。这些可以是本地文件系统或 HDFS、HTTP、HTTPS 或 FTP URL 上的路径。
- environment:字典,可选
要在工作节点上设置的环境变量字典。
- batchSize:整数,可选
表示为单个 Java 对象的 Python 对象的数量。设置 1 禁用批处理,设置 0 以根据对象大小自动选择批处理大小,或设置 -1 使用无限制的批处理大小
- serializer:
pyspark.serializers.Serializer
,可选 RDD 的序列化器。
- conf:
pyspark.SparkConf
,可选 设置 Spark 属性的对象。
- gateway:
py4j.java_gateway.JavaGateway
,可选 使用现有的网关和 JVM,否则将实例化一个新的 JVM。这仅在内部使用。
- jsc:
py4j.java_gateway.JavaObject
,可选 JavaSparkContext 实例。这仅在内部使用。
- profiler_cls:类型,可选
用于进行分析的一类自定义 Profiler(默认为
pyspark.profiler.BasicProfiler
)。
参数:
注意:
每个 JVM 只能有一个
SparkContext
处于活动状态。在创建新的SparkContext
之前,您必须stop()
为活动的SparkContext
。SparkContext
实例不支持开箱即用地跨多个进程共享,并且PySpark 不保证multi-processing 执行。使用线程来代替并发处理目的。例子:
>>> from pyspark.context import SparkContext >>> sc = SparkContext('local', 'test') >>> sc2 = SparkContext('local', 'test2') Traceback (most recent call last): ... ValueError: ...
相关用法
- Python pyspark SparkContext.addFile用法及代码示例
- Python pyspark SparkContext.union用法及代码示例
- Python pyspark SparkContext.runJob用法及代码示例
- Python pyspark SparkContext.parallelize用法及代码示例
- Python pyspark SparkContext.range用法及代码示例
- Python pyspark SparkContext.setJobGroup用法及代码示例
- Python pyspark SparkContext.pickleFile用法及代码示例
- Python pyspark SparkContext.applicationId用法及代码示例
- Python pyspark SparkContext.wholeTextFiles用法及代码示例
- Python pyspark SparkContext.textFile用法及代码示例
- Python pyspark SparkConf用法及代码示例
- Python pyspark SparkSession.createDataFrame用法及代码示例
- Python pyspark SparkSession.table用法及代码示例
- Python pyspark SparkSession用法及代码示例
- Python pyspark SparkSession.builder.config用法及代码示例
- Python pyspark SparkSession.getActiveSession用法及代码示例
- Python pyspark SparkSession.range用法及代码示例
- Python pyspark SparkSession.sql用法及代码示例
- Python pyspark SparkSession.builder.getOrCreate用法及代码示例
- Python pyspark SparseVector.parse用法及代码示例
- Python pyspark SparseVector.dot用法及代码示例
- Python pyspark SparseVector.squared_distance用法及代码示例
- Python pyspark SparseVector.norm用法及代码示例
- Python pyspark Series.asof用法及代码示例
- Python pyspark Series.to_frame用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.SparkContext。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。