Python pyspark RDD.persist用法及代码示例

本文简要介绍 pyspark.RDD.persist 的用法。

用法: RDD.persist(storageLevel=StorageLevel(False, True, False, False, 1))

设置此 RDD 的存储级别以在第一次计算后跨操作保留其值。如果 RDD 还没有设置存储级别，这只能用于分配新的存储级别。如果未指定存储级别，则默认为 (MEMORY_ONLY)。

>>> rdd = sc.parallelize(["b", "a", "c"])
>>> rdd.persist().is_cached
True

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.RDD.persist。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。