本文簡要介紹
pyspark.sql.functions.monotonically_increasing_id
的用法。用法:
pyspark.sql.functions.monotonically_increasing_id()
生成單調遞增的 64 位整數的列。
生成的ID保證單調遞增且唯一,但不連續。當前實現將分區 ID 放在高 31 位中,將每個分區內的記錄號放在低 33 位中。假設數據幀的分區少於10億,每個分區的記錄少於80億。
版本 1.6.0 中的新函數。
注意:
該函數是不確定的,因為它的結果取決於分區 ID。
例如,考慮一個有兩個分區的
DataFrame
,每個分區有 3 條記錄。此表達式將返回以下 ID:0、1、2、8589934592 (1L << 33)、8589934593、8589934594。>>> df0 = sc.parallelize(range(2), 2).mapPartitions(lambda x: [(1,), (2,), (3,)]).toDF(['col1']) >>> df0.select(monotonically_increasing_id().alias('id')).collect() [Row(id=0), Row(id=1), Row(id=2), Row(id=8589934592), Row(id=8589934593), Row(id=8589934594)]
相關用法
- Python pyspark months用法及代碼示例
- Python pyspark month用法及代碼示例
- Python pyspark months_between用法及代碼示例
- Python pyspark map_from_arrays用法及代碼示例
- Python pyspark map_filter用法及代碼示例
- Python pyspark md5用法及代碼示例
- Python pyspark melt用法及代碼示例
- Python pyspark map_from_entries用法及代碼示例
- Python pyspark merge用法及代碼示例
- Python pyspark map_zip_with用法及代碼示例
- Python pyspark map_values用法及代碼示例
- Python pyspark map_entries用法及代碼示例
- Python pyspark map_concat用法及代碼示例
- Python pyspark map_keys用法及代碼示例
- Python pyspark minute用法及代碼示例
- Python pyspark create_map用法及代碼示例
- Python pyspark date_add用法及代碼示例
- Python pyspark DataFrame.to_latex用法及代碼示例
- Python pyspark DataStreamReader.schema用法及代碼示例
- Python pyspark MultiIndex.size用法及代碼示例
- Python pyspark arrays_overlap用法及代碼示例
- Python pyspark Series.asof用法及代碼示例
- Python pyspark DataFrame.align用法及代碼示例
- Python pyspark Index.is_monotonic_decreasing用法及代碼示例
- Python pyspark IsotonicRegression用法及代碼示例
注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.functions.monotonically_increasing_id。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。