Python pyspark range用法及代码示例

本文简要介绍 pyspark.pandas.range 的用法。

用法: pyspark.pandas.range(start: int, end: Optional[int] = None, step: int = 1, num_partitions: Optional[int] = None) → pyspark.pandas.frame.DataFrame

创建一个包含一定范围数字的DataFrame。

生成的 DataFrame 有一个名为 id 的 int64 列，包含从 start 到 end(不包括)范围内的元素，步长值为 step 。如果只指定了第一个参数(即start)，我们将其视为结束值，起始值为0。

这类似于SparkSession中的范围函数，主要用于测试。

参数：

start：int: 起始值(含)
end：整数，可选: 最终值(不包括)
step：int，可选，默认1: 增量步骤
num_partitions：整数，可选: DataFrame的分区数量

DataFrame

例子：

当指定第一个参数时，我们会生成一个范围内的值，直到该数字为止。

>>> ps.range(5)
   id
0   0
1   1
2   2
3   3
4   4

指定 start、end 和 step 时：

>>> ps.range(start = 100, end = 200, step = 20)
    id
0  100
1  120
2  140
3  160
4  180

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.range。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：