Python pyspark DataFrame.insert用法及代碼示例

本文簡要介紹 pyspark.pandas.DataFrame.insert 的用法。

用法: DataFrame.insert(loc: int, column: Union[Any, Tuple[Any, …]], value: Union[int, float, bool, str, bytes, decimal.Decimal, datetime.date, datetime.datetime, None, Series, Iterable], allow_duplicates: bool = False) → None

將列插入DataFrame中的指定位置。

如果 column 已包含在 DataFrame 中，則引發 ValueError，除非 allow_duplicates 設置為 True。

參數：

loc：int: 插入索引。必須驗證 0 <= loc <= len(columns)。
column：str、數字或可散列對象: 插入列的標簽。
value：int、Series 或類似數組
allow_duplicates：布爾型，可選

例子：

>>> psdf = ps.DataFrame([1, 2, 3])
>>> psdf.sort_index()
   0
0  1
1  2
2  3
>>> psdf.insert(0, 'x', 4)
>>> psdf.sort_index()
   x  0
0  4  1
1  4  2
2  4  3

>>> from pyspark.pandas.config import set_option, reset_option
>>> set_option("compute.ops_on_diff_frames", True)

>>> psdf.insert(1, 'y', [5, 6, 7])
>>> psdf.sort_index()
   x  y  0
0  4  5  1
1  4  6  2
2  4  7  3

>>> psdf.insert(2, 'z', ps.Series([8, 9, 10]))
>>> psdf.sort_index()
   x  y   z  0
0  4  5   8  1
1  4  6   9  2
2  4  7  10  3

>>> reset_option("compute.ops_on_diff_frames")

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.insert。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。