当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark range用法及代码示例


本文简要介绍 pyspark.pandas.range 的用法。

用法:

pyspark.pandas.range(start: int, end: Optional[int] = None, step: int = 1, num_partitions: Optional[int] = None) → pyspark.pandas.frame.DataFrame

创建一个包含一定范围数字的DataFrame。

生成的 DataFrame 有一个名为 id 的 int64 列,包含从 startend(不包括)范围内的元素,步长 值为 step 。如果只指定了第一个参数(即start),我们将其视为结束值,起始值为0。

这类似于SparkSession中的范围函数,主要用于测试。

参数

startint

起始值(含)

end整数,可选

最终值(不包括)

stepint,可选,默认1

增量步骤

num_partitions整数,可选

DataFrame的分区数量

返回

DataFrame

例子

当指定第一个参数时,我们会生成一个范围内的值,直到该数字为止。

>>> ps.range(5)
   id
0   0
1   1
2   2
3   3
4   4

指定 start、end 和 step 时:

>>> ps.range(start = 100, end = 200, step = 20)
    id
0  100
1  120
2  140
3  160
4  180

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.range。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。