Python pyspark Index用法及代碼示例

本文簡要介紹 pyspark.pandas.Index 的用法。

用法: class pyspark.pandas.Index

pandas-on-Spark 邏輯上對應pandas索引的索引。這可能會在內部保存 Spark Column。

data：類似數組(一維)
dtype：dtype，默認無: 如果 dtype 為 None，我們會找到最適合數據的 dtype。如果提供了實際的 dtype，如果它是安全的，我們會強製使用該 dtype。否則，將引發錯誤。
copy：bool: 製作輸入 ndarray 的副本。
name：對象: 要存儲在索引中的名稱。
tupleize_cols：布爾(默認值：真): 當為 True 時，如果可能，嘗試創建 MultiIndex。

>>> ps.DataFrame({'a': ['a', 'b', 'c']}, index=[1, 2, 3]).index
Int64Index([1, 2, 3], dtype='int64')

>>> ps.DataFrame({'a': [1, 2, 3]}, index=list('abc')).index
Index(['a', 'b', 'c'], dtype='object')

>>> ps.Index([1, 2, 3])
Int64Index([1, 2, 3], dtype='int64')

>>> ps.Index(list('abc'))
Index(['a', 'b', 'c'], dtype='object')

從一個係列：

>>> s = ps.Series([1, 2, 3], index=[10, 20, 30])
>>> ps.Index(s)
Int64Index([1, 2, 3], dtype='int64')

從索引：

>>> idx = ps.Index([1, 2, 3])
>>> ps.Index(idx)
Int64Index([1, 2, 3], dtype='int64')

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.Index。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。